LLMトークナイゼーションパイプラインとは？（エルエルエムトークナイゼーションパイプライン）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

LLMトークナイゼーションパイプラインとは？（エルエルエムトークナイゼーションパイプライン）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

トークナイゼーションアルゴリズム

主要アルゴリズムの比較

アルゴリズム	代表的モデル	語彙構築法	特徴	採用例
BPE（Byte Pair Encoding）	GPT-4, Claude, Llama 3	頻度ベースのマージ	最も広く使用、バイトレベルBPEが主流	OpenAI tiktoken
Unigram	T5, mBART	尤度ベースの刈り込み	確率的な分割が可能	SentencePiece
WordPiece	BERT, DistilBERT	尤度ベースのマージ	BERTファミリーで標準	HuggingFace tokenizers
Byte-level BPE	GPT-2以降	バイト単位のBPE	未知語なし、多言語対応

モデル	語彙サイズ	トークナイザ	備考
GPT-2	50,257	BPE	英語中心
GPT-4	100,256	Byte-level BPE (cl100k)	多言語対応強化
Llama 3	128,256	Byte-level BPE	多言語・コード対応
Claude 3	非公開	BPE系	高効率な多言語分割
Gemini	256,000	SentencePiece	最大級の語彙
Qwen 2.5	151,643	Byte-level BPE	CJK最適化

言語	英語基準のトークン数比	原因
英語	1.0x（基準）	BPE学習データの大部分が英語
フランス語	1.3〜1.5x	ラテン文字だがアクセント記号で分割増
日本語	1.5〜3.0x	漢字・ひらがな・カタカナの混在
中国語	1.5〜2.5x	漢字がバイト分割される
アラビア語	2.0〜3.0x	右から左の文字体系
タイ語	3.0〜5.0x	分かち書きなし、固有文字

ツール	言語	速度（MB/秒/コア）	備考
tiktoken	Rust/Python	約 150	OpenAI公式、最速
HuggingFace tokenizers	Rust/Python	約 120	多機能、カスタマイズ性高
SentencePiece	C++/Python	約 80	Unigram サポート
custom BPE (Python)	Python	約 5	学習用、本番非推奨

指標	定義	望ましい値
圧縮率	元テキストのバイト数 / トークン数	高いほど良い（英語で3.5〜4.5）
語彙カバレッジ	未知トークン（UNK）の発生率	0%（Byte-level BPE では原理的に0）
多言語公平性	言語間のトークン数比の分散	低いほど良い
正規化安定性	同一意味テキストの分割一貫性	高いほど良い
可逆性	トークン→テキストの復元精度	100%（ロスレス）