BPE（Byte Pair Encoding）とは？（バイトペアエンコーディング）わかりやすく解説

初期化: 訓練コーパス内の全テキストを文字（またはバイト）単位に分解し、初期語彙を構築する
頻度カウント: 隣接するトークンペアの出現頻度を集計する
マージ操作: 最頻出ペアを1つの新トークンとして語彙に追加する
反復: 目標語彙サイズに達するまでステップ2-3を繰り返す
適用: 学習済みマージルールを未知テキストに順序通り適用してトークン化する

BPE（Byte Pair Encoding）は、テキストをサブワード単位に分割するトークン化アルゴリズムで、GPT系モデルやLLaMA等の大規模言語モデルで標準的に採用されている手法である。

BPE（Byte Pair Encoding）とは？（バイトペアエンコーディング）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

アルゴリズムの仕組み

BPEの学習プロセスは以下の手順で進行する：

GPT-4oでは約200,000トークンの語彙サイズを使用し、GPT-2の50,257トークンから大幅に拡張されている。語彙サイズの増加により、1トークンあたりの情報量が増え、同一テキストのトークン数が削減される。

実装	採用モデル	語彙サイズ	処理速度	特徴
tiktoken	GPT-4o / GPT-4	200,000 / 100,256	3-6x高速（Rust実装）	OpenAI公式・バイトレベルBPE
Hugging Face Tokenizers	LLaMA 3 / Mistral	128,256 / 32,768	高速（Rust実装）	多モデル対応・学習機能あり

手法	原理	語彙構築	OOV処理	主な採用モデル
BPE	最頻出ペアの反復マージ	ボトムアップ	サブワード分割	GPT系・LLaMA・Mistral
WordPiece	尤度最大化ペアのマージ	ボトムアップ	##接頭辞分割	BERT・DistilBERT
Unigram LM	確率最大の分割を選択	トップダウン（刈込）	確率的サブワード	T5・mBART・ALBERT
文字単位	1文字=1トークン	不要	なし（全文字対応）	ByT5・Charformer