BPE（バイトペア符号化）とは？（ビーピーイー）わかりやすく解説

Byte Pair Encoding（BPE）は、テキスト圧縮アルゴリズムを応用したサブワード分割手法で、コーパス中の最頻出バイグラムを反復的にマージして語彙を構築する。GPT-4o・Llama 3・Mistralなど2026年の主要LLMで最も広く採用されているトークナイザーアルゴリズムである。

BPE（バイトペア符号化）とは？（ビーピーイー）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

バイトレベルBPEとCharレベルBPEの違い

GPT-2で導入されたバイトレベルBPEは、UTF-8の全256バイト値を初期語彙とすることで、あらゆるUnicode文字列を[UNK]なしで表現可能にした。この設計はGPT-3、GPT-4、GPT-4oに引き継がれ、LLMトークナイザーの事実上の標準となっている。

BPEトークナイザーの学習は以下の手順で実行される：

モデル	実装	語彙サイズ	正規表現前分割	バイトフォールバック	学習コーパス規模
GPT-4o	tiktoken (Rust)	200,019	あり	あり	推定13兆トークン
Llama 3	tiktoken互換	128,256	あり	あり	15兆トークン
Mistral Large	SentencePiece BPE	32,768	なし（▁方式）	あり	非公開
Falcon 2	HuggingFace BPE	65,024	あり	あり	5.5兆トークン
Phi-3	tiktoken	32,064	あり	あり	3.3兆トークン