LLMデコーディング戦略とは？（エルエルエムデコーディングセンリャク）わかりやすく解説

Google: Gemini 2.5 Pro で内部的に採用。推論速度を約2〜3倍に向上
Meta: Llama 3.1 で公式サポート。68B モデルに対して 8B ドラフトモデルを使用
vLLM 0.8+: Speculative Decoding をネイティブサポート。draft_model パラメータで指定
Medusa: 複数ヘッドで並列にドラフトトークンを予測。追加パラメータ数は本体の2〜5%

LLM（大規模言語モデル）がテキストを生成する際に、次のトークンを選択するアルゴリズムの総称。貪欲法・ビームサーチ・サンプリング系など複数の手法があり、生成品質・多様性・速度のトレードオフを制御する。

LLMデコーディング戦略とは？（エルエルエムデコーディングセンリャク）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

主なデコーディング手法の分類

デコーディング戦略は大きく「決定論的手法」と「確率的手法」に分類されます。

貪欲法（Greedy Decoding）: 各ステップで最も確率が高いトークンを選択。計算コスト最小だが多様性ゼロ
ビームサーチ（Beam Search）: 複数の候補系列（ビーム幅 k=4〜8 が一般的）を並行探索し、最終的に最高スコアの系列を選択
Top-k サンプリング: 確率上位 k 個のトークンからランダムサンプリング。k=50 が GPT-2 論文の標準値
Top-p（Nucleus）サンプリング: 累積確率が p（例: 0.9）に達するまでのトークン集合からサンプリング
Temperature スケーリング: softmax の温度パラメータ τ を調整。τ→0 で貪欲法に近づき、τ→∞ で一様分布に近づく
Min-p サンプリング: 2024年に提案された手法。最高確率トークンに対する相対比率で閾値を設定（例: min_p=0.05 で最高確率の5%未満を除外）
Mirostat: 目標パープレキシティを維持するよう動的に k を調整する適応型手法
Contrastive Decoding: 大型モデルと小型モデルの確率差を利用して品質を向上

手法	多様性	品質	速度	主な用途	パラメータ
Greedy	なし	中	最速