Lookahead Decodingとは？（ルックアヘッドデコーディング）わかりやすく解説

初期化: W個の将来トークン位置をランダムまたはn-gramで初期化する（W = Lookahead Window、通常5〜15）
並列更新: 全W位置を1回のフォワードパスで同時に更新する。各位置の出力は他の位置の最新推定値を考慮
収束判定: 各位置のトークンが前回と同一であれば「収束」と判定。収束した連続区間を確定出力として受理
n-gramキャッシュ: 収束過程で得られたトークンシーケンスをn-gramキャッシュに蓄積し、次回以降の初期化精度を向上

Jacobi反復法を応用して複数の将来トークン位置を並列に推定し、追加パラメータや追加学習なしで既存LLMの推論を1.5〜2.3倍高速化する並列デコーディング手法。

Lookahead Decodingとは？（ルックアヘッドデコーディング）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

Jacobi反復法の応用

Lookahead Decodingの数理的基盤はJacobi反復法にある。従来の自己回帰デコーディングはGauss-Seidel法に相当し、前のトークンが確定してから次のトークンを生成する逐次的な処理を行う。一方、Jacobi反復法では全位置を同時に更新する。

処理フローは以下のとおりである。

Lookahead Window (W)	n-gram サイズ (N)	高速化倍率	GPU メモリ増加	適用モデル
5	3	1.5x	+10%	Llama 3 8B
10	5	1.8x	+15%	Llama 3 70B
15

比較軸	Lookahead	Medusa	EAGLE	Speculative Dec.
追加学習	不要	必要	必要	不要
追加パラメータ	なし	ヘッド追加	ヘッド追加	ドラフトモデル
高速化倍率	1.5〜2.3x	1.8〜2.8x	2.5〜3.8x	2.0〜3.5x
メモリ増加	+10〜25%	+5〜10%	+3〜8%	+20〜40%
導入の容易さ	最も簡単	中程度	中程度	簡単
モデル依存性	なし	ヘッド要学習	ヘッド要学習	ドラフトモデル選定