Name: BpeTokenizer
Author: Allen Clark Copeland, Jr.

BpeTokenizer — nugetz

// By its encoding name:
var encoder = await BytePairEncodingRegistry.GetEncodingAsync("cl100k_base");

// By its model:
var encoder = await BytePairEncodingModels.EncodingForModelAsync("gpt-4");

var tokens = encoder.Encode("Hello BPE world!"); //Results in: [9906, 426, 1777, 1917, 0]

var text = encoder.Decode(tokens); //Results in: "Hello BPE world!"

var cl100kBaseEncoder = await BytePairEncodingRegistry.GetEncodingAsync("cl100k_base");
var p50kEditEncoder   = await BytePairEncodingRegistry.GetEncodingAsync("p50k_edit");
var p50kBaseEncoder   = await BytePairEncodingRegistry.GetEncodingAsync("p50k_base");
var r50kBaseEncoder   = await BytePairEncodingRegistry.GetEncodingAsync("r50k_base");
var gpt2Encoder       = await BytePairEncodingRegistry.GetEncodingAsync("gpt2");

var gpt4Encoder                     = await BytePairEncodingModels.EncodingForModelAsync("gpt-4");
var textDavinci003Encoder           = await BytePairEncodingModels.EncodingForModelAsync("text-davinci-003");
var textDavinci001Encoder           = await BytePairEncodingModels.EncodingForModelAsync("text-davinci-001");
var codeDavinci002Encoder           = await BytePairEncodingModels.EncodingForModelAsync("code-davinci-002");
var textDavinciEdit001Encoder       = await BytePairEncodingModels.EncodingForModelAsync("text-davinci-edit-001");
var textEmbeddingAda002Encoder      = await BytePairEncodingModels.EncodingForModelAsync("text-embedding-ada-002");
var textSimilarityDavinci001Encoder = await BytePairEncodingModels.EncodingForModelAsync("text-similarity-davinci-001");
var gpt2Encoder                     = await BytePairEncodingModels.EncodingForModelAsync("gpt2");

var tokenCount = encoder.CountTokens("Hello BPE world!"); //Results in: 5

AllenCopeland/BpeTokenizerv1.0.5

Get Started

Readme

BpeTokenizer

Usage

Supported Encodings/Models:

Token Counting

Maintainers