LLM並列デコーディングとは？（エルエルエムヘイレツデコーディング）わかりやすく解説

LLMの推論時に複数トークンを同時に生成・検証することで、自己回帰的なトークン生成のボトルネックを解消し、レイテンシを2〜5倍短縮する高速化技術群の総称。

LLM並列デコーディングとは？（エルエルエムヘイレツデコーディング）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

主な技術アプローチ

並列デコーディングには大きく3つのアプローチが存在する。

Speculative Decoding（投機的デコーディング）: 小型のドラフトモデルが複数トークンを先行生成し、大型のターゲットモデルが一括検証する方式。Google DeepMindが2023年に提案し、Llama 3.1 405Bで2.3倍の高速化を達成
Parallel Verification（並列検証）: Medusa・EAGLEなどの追加ヘッドが複数候補を同時に生成し、ツリー構造で検証する方式。モデル単体で完結するためドラフトモデル不要
Lookahead Decoding（先読みデコーディング）: Jacobi反復法を応用し、将来のトークン位置を並列に推定する方式。追加パラメータ不要で既存モデルにそのまま適用可能

手法	高速化倍率	追加パラメータ	追加学習	GPU メモリ増加	対応フレームワーク
Speculative Decoding	2.0〜3.5x	ドラフトモデル全体	不要	+20〜40%	vLLM 0.6+, TGI 2.0+
Medusa	1.8〜2.8x	+2〜5ヘッド（約5%増）	必要（1〜2日）	+5〜10%