LLMの推論時に複数トークンを同時に生成・検証することで、自己回帰的なトークン生成のボトルネックを解消し、レイテンシを2〜5倍短縮する高速化技術群の総称。
LLM並列デコーディング(Parallel Decoding)は、大規模言語モデルの推論速度を劇的に向上させる技術群である。従来のLLM推論は1トークンずつ逐次生成する自己回帰(autoregressive)方式を採用しており、GPT-4oやClaude 4 Opusクラスのモデルでは1トークンあたり20〜50msのレイテンシが発生する。並列デコーディングは、この逐次処理のボトルネックを解消し、複数トークンを同時に生成・検証することで2〜5倍の高速化を実現する。
並列デコーディングには大きく3つのアプローチが存在する。
| 手法 | 高速化倍率 | 追加パラメータ | 追加学習 | GPU メモリ増加 | 対応フレームワーク |
|---|---|---|---|---|---|
| Speculative Decoding | 2.0〜3.5x | ドラフトモデル全体 | 不要 | +20〜40% | vLLM 0.6+, TGI 2.0+ |
| Medusa | 1.8〜2.8x | +2〜5ヘッド(約5%増) | 必要(1〜2日) | +5〜10% |
| vLLM 0.5+, SGLang |
| EAGLE | 2.5〜3.8x | +1デコーダ層(約3%増) | 必要(数時間) | +3〜8% | vLLM 0.6+, EAGLE公式 |
| Lookahead | 1.5〜2.3x | なし | 不要 | +15〜25%(n-gram pool) | LookaheadAI公式 |
| Multi-Token Prediction | 2.0〜4.0x | +N出力ヘッド | 事前学習時 | +10〜20% | Meta公式実装 |
Speculative Decodingは、2023年にLeviathan et al.が発表した「Fast Inference from Transformers via Speculative Decoding」で体系化された。処理フローは以下のとおりである。
実際のベンチマークでは、Llama 3.1 405B + 8Bの組み合わせでコード生成タスクにおいて2.8倍、要約タスクで2.1倍の高速化が報告されている。
2026年現在、主要な推論フレームワークが並列デコーディングをネイティブサポートしている。
--speculative-model フラグでSpeculative Decoding、--num-speculative-tokens 5 でドラフト長を指定。Medusa・EAGLEもプラグイン方式で対応--draft オプションでCPU環境でもSpeculative Decodingが利用可能。M4 Max搭載MacBook Proで1.8倍の高速化導入コスト面では、Speculative Decodingはドラフトモデルの追加GPU メモリが必要(8Bモデルで約16GB)だが、Medusa/EAGLEはモデル本体の5〜10%程度の追加で済むため、メモリ制約のある環境(RTX 4090 24GB等)ではMedusa/EAGLEが現実的な選択となる。
Q1: 並列デコーディングで出力品質は劣化しますか? A: Speculative Decodingは数学的にロスレスであり、ターゲットモデル単体と完全に同一の出力を生成する。Medusa/EAGLEもtop-k検証により品質劣化は0.1%未満に抑えられる。ただしMedusaのRelaxedモード(temperature > 0)では微小な分布変化が生じる。
Q2: どのハードウェアで最も効果が高いですか? A: NVIDIA H100 SXMやA100 80GBなどのメモリバンド幅が広いGPUで最大効果を発揮する。H100 SXMではSpeculative Decodingで3.5倍、EAGLE+FP8で4.2倍の高速化が報告されている。RTX 4090(24GB)でもEAGLEで2.5倍程度は期待できる。
Q3: バッチ処理環境でも効果はありますか? A: Speculative Decodingはバッチサイズが大きくなると効果が低下する傾向がある(バッチサイズ32以上で1.3倍程度に低下)。大規模バッチ処理にはContinuous Batchingとの併用、またはMulti-Token Predictionが適している。
Q4: 追加の学習データは必要ですか? A: Speculative DecodingとLookahead Decodingは追加学習不要でそのまま適用可能。MedusaとEAGLEは追加ヘッドの学習が必要だが、ShareGPT等の公開データセット10〜50K件で十分であり、A100 1台で数時間〜2日程度で完了する。