BPEトークナイザーとは？（ビーピーイートークナイザー）わかりやすく解説

高いカバレッジ: サブワード分割により、未知語をゼロにできる（特にByte-level BPE）
言語非依存: 学習データさえあれば、あらゆる言語・スクリプトに対応
効率的な圧縮: 頻出語は1トークン、稀少語は複数トークンに分割され、情報理論的に効率的
実装の単純さ: マージテーブルのルックアップで高速にエンコード可能

Byte Pair Encoding（BPE）に基づくサブワード分割アルゴリズム。テキストを文字単位から出発し、出現頻度の高い隣接ペアを繰り返しマージして語彙を構築する。GPT系列・LLaMA・Mistralなど主要LLMの標準トークナイザー方式。

BPEトークナイザーとは？（ビーピーイートークナイザー）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

アルゴリズムの動作原理

BPEの語彙構築（学習フェーズ）は以下のステップで進行する。

推論時（エンコードフェーズ）は、学習済みのマージルールを優先順位順に適用し、入力テキストをトークン列に変換する。

GPT-2以降のOpenAIモデルは、文字レベルではなくバイトレベルのBPEを採用している。

モデル	トークナイザー	語彙サイズ	実装ライブラリ
GPT-4 / GPT-4o	Byte-level BPE	約100,000	tiktoken (cl100k_base)
GPT-3.5	Byte-level BPE	約100,000	tiktoken (cl100k_base)
LLaMA 2	BPE (SentencePiece)	32,000	sentencepiece
LLaMA 3	Byte-level BPE	128,256	tiktoken互換
Mistral 7B	BPE (SentencePiece)	32,000	sentencepiece
Gemma 2	BPE (SentencePiece)	256,000	sentencepiece
Claude 3/4	Byte-level BPE	非公開	独自実装