BPE (Byte Pair Encoding)とは？（ビーピーイー（バイトペアエンコーディング））わかりやすく解説

Q: BPE (Byte Pair Encoding)とは？

テキストをサブワード単位に分割するトークナイゼーションアルゴリズム。最も頻出する隣接文字ペアを繰り返しマージして語彙を構築する。GPT系・LLaMA系など主要LLMの大半が採用する業界標準手法で、未知語への対応力とコンパクトな語彙サイズを両立する。

BPE（Byte Pair Encoding）とは

BPE（Byte Pair Encoding）は、テキストをサブワード（部分語）単位に分割するトークナイゼーションアルゴリズムである。単語単位の分割では未知語（OOV: Out-of-Vocabulary）が大量に発生し、文字単位の分割では系列長が爆発する。BPEはこの両極の中間に位置し、頻出するサブワードを1トークンに、稀な語は文字レベルに分解することで、語彙サイズと表現力のバランスを取る。

アルゴリズムの仕組み

BPEの学習は以下のステップで進行する。

訓練コーパスの全テキストをUTF-8バイト列（または文字列）に分解し、初期語彙とする
コーパス中で最も頻出する隣接トークンペアをカウントする
最頻出ペアを新しい1トークンとしてマージし、語彙に追加する
ステップ2-3を目標語彙サイズに達するまで繰り返す

ステップ	テキスト状態	マージされるペア
初期	l o w e r	-
1回目	lo w e r	(l, o) → lo
2回目	low e r	(lo, w) → low
3回目	low er	(e, r) → er
4回目	lower	(low, er) → lower

実際のLLM訓練では語彙サイズは32,000〜128,000程度に設定される。語彙が大きいほど1トークンあたりの情報量が増え系列長が短くなるが、埋め込みテーブルのメモリ消費も増加する。

モデル	トークナイザ	語彙サイズ	ベース手法
GPT-4o	cl100k_base (tiktoken)	100,256	Byte-Level BPE
GPT-3.5	cl100k_base (tiktoken)	100,256	Byte-Level BPE
GPT-2	gpt2 (tiktoken)	50,257	Byte-Level BPE
LLaMA 3	SentencePiece BPE	128,256	Byte-Level BPE
LLaMA 2	SentencePiece BPE	32,000	Byte-Level BPE
Mistral 7B	SentencePiece BPE	32,000	Byte-Level BPE
Qwen2.5	カスタムBPE	151,646	Byte-Level BPE
Claude 3.5	非公開	非公開	BPEベース推定

手法	学習アプローチ	採用モデル例	特徴
BPE	ボトムアップ（マージ）	GPT系, LLaMA, Mistral	最頻出ペアを貪欲にマージ
WordPiece	ボトムアップ（尤度最大化）	BERT, DistilBERT	マージ候補を尤度で評価
Unigram	トップダウン（語彙削減）	T5, mBART, ALBERT	大語彙から尤度の低いトークンを除去

メニュー

BPE (Byte Pair Encoding)（ビーピーイー（バイトペアエンコーディング））

メニュー

BPE (Byte Pair Encoding)（ビーピーイー（バイトペアエンコーディング））

BPE（Byte Pair Encoding）とは

アルゴリズムの仕組み

Byte-Level BPE

この用語に関連するコンテンツ

主要LLMのBPE語彙サイズ比較

BPEと他のサブワード手法の比較

トークナイゼーションが性能に与える影響

FAQ

Q1. BPEのトークナイゼーションはどのように日本語を処理しますか？

Q2. 語彙サイズはどのくらいが最適ですか？

Q3. BPEトークナイザは訓練後に語彙を変更できますか？

関連用語