LLMトークナイザーアーキテクチャとは？（エルエルエムトークナイザーアーキテクチャ）わかりやすく解説

Q: LLMトークナイザーアーキテクチャとは？

LLM（大規模言語モデル）がテキストを処理する際に、入力文字列を数値トークン列に変換するトークナイザーの設計思想・構成要素・アルゴリズム選択を体系的にまとめた技術概念。BPE・WordPiece・Unigram LM・SentencePieceなど複数の分割アルゴリズムと、語彙テーブル・特殊トークン・正規化ルールで構成される。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

LLMトークナイザーアーキテクチャとは？（エルエルエムトークナイザーアーキテクチャ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

主要トークナイザーアルゴリズムの比較

アルゴリズム	採用モデル	語彙サイズ	特徴	多言語性能
BPE	GPT-4o, Llama 3, Mistral	100,000〜128,000	頻度ベースのマージ、バイトレベル対応	高い
WordPiece	BERT, DistilBERT	30,522	サブワード確率最大化、##プレフィックス	中程度
Unigram LM	Gemma 2, T5, mBART	32,000〜256,000	確率的分割、複数候補から最尤選択	非常に高い
SentencePiece BPE	Llama 2, Baichuan	32,000	言語非依存、空白をメタ文字▁で表現	高い

モデル	トークナイザー名	アルゴリズム	語彙サイズ	最大コンテキスト	日本語効率
GPT-4o	o200k_base	BPE (tiktoken)	200,019	128,000トークン	1文字≒1.2トークン
Claude 3.5 Sonnet	非公開	BPE系	約100,000	200,000トークン	1文字≒1.3トークン
Llama 3.1	llama3-tokenizer	BPE (tiktoken互換)	128,256	128,000トークン	1文字≒1.5トークン
Gemma 2	gemma-tokenizer	SentencePiece Unigram	256,128	8,192トークン	1文字≒1.1トークン
Qwen 2.5	qwen2-tokenizer	BPE	151,643	131,072トークン	1文字≒0.9トークン
Mistral Large	mistral-tokenizer	BPE (SentencePiece)	32,768	128,000トークン	1文字≒1.8トークン

メニュー

LLMトークナイザーアーキテクチャ（エルエルエムトークナイザーアーキテクチャ）

メニュー

LLMトークナイザーアーキテクチャ（エルエルエムトークナイザーアーキテクチャ）

この用語に関連するコンテンツ

LLMトークナイザーアーキテクチャとは

概要

主要トークナイザーアルゴリズムの比較

トークナイザーの内部構成

プリトークナイズレイヤー

トークン分割レイヤー

トークンID変換レイヤー

主要モデルのトークナイザー仕様

トークナイザーが性能に与える影響

トークナイザーの学習と構築

よくある質問（FAQ）

まとめ

関連用語