Multi-Token Predictionとは？（マルチトークンプレディクション）わかりやすく解説

Self-Speculative Decoding: N個のヘッドがドラフト役を兼ね、Backbone自身がVerifier（検証者）となる。外部ドラフトモデルが不要で、追加メモリコストはN個のヘッド分（約10〜20%）のみ
高速化倍率: N=4のモデルで平均2.0〜3.5倍の高速化。コード生成では受理率が高く3.5倍、自然言語会話では2.0倍程度
品質保証: 検証ステップにより出力品質はNTPモデルと同等以上（MTP学習自体が品質を向上させるため、むしろ高品質になるケースが多い）

LLMの事前学習時に1つの位置から複数の将来トークンを同時に予測するよう訓練することで、モデルの表現力を向上させると同時に、推論時に2〜4倍の高速化を実現する学習・推論統合型の並列デコーディング手法。

Multi-Token Predictionとは？（マルチトークンプレディクション）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

MTPの仕組み

MTPの学習アーキテクチャは以下の構成を取る。

共有Transformer Backbone: 入力トークン列をエンコードする標準的なTransformerモデル。GPT/Llama等の既存アーキテクチャをそのまま使用
N個の独立出力ヘッド: 各ヘッドは1〜Nトークン先を予測する独立した言語モデルヘッド（Linear + Softmax）。ヘッド間でBackboneの重みを共有
学習目標: N個の予測すべてに対するクロスエントロピー損失の平均を最小化。各ヘッドの損失に重み付けは行わず均等に扱う
推論時: N個のヘッドが同時にトークンを出力し、Speculative Decodingと同様の検証ステップで正しいトークン列を受理

MTPの最も注目すべき成果は、同一の計算予算（FLOPs）でNext-Token Prediction（NTP）より高い品質を達成する点である。

モデルサイズ	学習方式	HellaSwag	MMLU	HumanEval	学習FLOPs
7B	NTP (baseline)	78.2%	45.3%	28.0%	1.0x
7B	MTP (N=4)	80.1%	47.8%

モデル/組織	MTP採用状況	Nの値	備考
DeepSeek V3/R1	採用済み	N=1（auxiliary）	MTPをauxiliary lossとして使用、推論時は通常NTP
Meta Llama 4	採用済み	N=4	事前学習からMTP組み込み、並列推論ネイティブ対応
Qwen 3	未採用	-	NTP + Speculative Decodingを採用
Mistral Large 2	部分採用	N=2	一部チェックポイントで実験的に適用