Speculative Decoding（投機的デコーディング）とは？（スペキュラティブデコーディング）わかりやすく解説

Q: Speculative Decoding（投機的デコーディング）とは？

小型のドラフトモデルが候補トークン列を先行生成し、大型の検証モデルが一括で承認・却下することでLLM推論を高速化する手法。数学的に元のモデルと同一の出力分布を保証しながら、2〜3倍の速度向上を実現する。2024〜2026年に主要フレームワークで標準サポートされた。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Speculative Decoding（投機的デコーディング）とは？（スペキュラティブデコーディング）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

動作原理

アルゴリズムの流れ

ドラフト段階: 小型モデル M_q が γ 個の候補トークン x_1, x_2, ..., x_γ を自己回帰的に生成
検証段階: 大型モデル M_p が γ+1 個のトークン位置に対する確率分布を1回のフォワードパスで並列計算
承認判定: 各位置 i について、M_q(x_i) と M_p(x_i) を比較:
- M_p(x_i) ≥ M_q(x_i) の場合: 確率1で承認
- M_p(x_i) < M_q(x_i) の場合: 確率 M_p(x_i)/M_q(x_i) で承認
修正サンプリング: 最初に却下された位置で M_p の分布から再サンプリング
承認されたトークン + 修正トークンを出力に追加し、次のイテレーションへ

速度向上の理論

平均承認率を α とすると、1イテレーションあたりの平均生成トークン数は (1-α^(γ+1))/(1-α) です。ドラフトモデルのコストが検証モデルの 1/10 以下であれば、全体のスループットが 2〜3 倍向上します。

主要な実装と製品

フレームワーク/製品	バージョン	方式	速度向上
vLLM	0.6+	Draft Model 方式	1.8〜2.5x
TensorRT-LLM	0.9+	Draft + Medusa 両対応

from vllm import LLM, SamplingParams

llm = LLM(
    model="meta-llama/Llama-3.1-70B-Instruct",
    speculative_model="meta-llama/Llama-3.1-8B-Instruct",
    num_speculative_tokens=5,
    use_v2_block_manager=True,
)
params = SamplingParams(temperature=0.7, top_p=0.9, max_tokens=512)
outputs = llm.generate(["Explain quantum computing"], params)

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3.1-70B-Instruct")
assistant = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3.1-8B-Instruct")

outputs = model.generate(
    **inputs,
    assistant_model=assistant,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7,
)

メニュー

Speculative Decoding（投機的デコーディング）（スペキュラティブデコーディング）

メニュー

Speculative Decoding（投機的デコーディング）（スペキュラティブデコーディング）

この用語に関連するコンテンツ

Speculative Decoding（投機的デコーディング）とは

動作原理

アルゴリズムの流れ

速度向上の理論

主要な実装と製品

バリエーション

Medusa（2024年〜）

Self-Speculative Decoding

EAGLE（2024年〜）

Lookahead Decoding

実装例

vLLM での Speculative Decoding

Hugging Face Transformers

よくある質問（FAQ）

まとめ

関連用語