Medusa（マルチヘッド投機的デコーディング）とは？（メデューサ（マルチヘッドトウキテキデコーディング））わかりやすく解説

Q: Medusa（マルチヘッド投機的デコーディング）とは？

Medusa（メデューサ）は、ターゲットLLMの最終隠れ層に複数の追加デコーディングヘッドを取り付け、各ヘッドが将来の異なる位置のトークンを同時に予測することで、外部ドラフトモデルなしに投機的デコーディングを実現する手法である。Medusa-1は典型的採択（typical acceptance）による近似検証、Medusa-2は修正棄却サンプリングによる厳密検証をサポートし、ツリーベースの候補構造と組み合わせることで2〜3倍のスピードアップを実現する。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Medusa（マルチヘッド投機的デコーディング）とは？（メデューサ（マルチヘッドトウキテキデコーディング））意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

Medusaの基本アーキテクチャ

Medusa（Cai et al., 2024、「Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads」）は、投機的デコーディングにおける「外部ドラフトモデルが必要」という制約を根本的に解消するアプローチである。従来の投機的デコーディングでは、ターゲットモデルとは別に小型のドラフトモデルをGPUメモリにロードする必要があったが、Medusaはターゲットモデル自体に複数の予測ヘッドを追加するだけでドラフト機能を統合する。

Medusaのアーキテクチャは以下の構成要素からなる。

コンポーネント	説明	パラメータ数
ベースモデル（Backbone）	元のLLM（Llama、Vicunaなど）のTransformerブロック全体	元のモデルと同一
オリジナルLMヘッド（Head 0）	次トークン（位置t+1）を予測する元のヘッド	hidden_dim × vocab_size
Medusa Head 1	位置t+2のトークンを予測	hidden_dim × vocab_size + α
Medusa Head 2	位置t+3のトークンを予測	hidden_dim × vocab_size + α
Medusa Head k	位置t+k+1のトークンを予測	hidden_dim × vocab_size + α

各Medusa Headは、ベースモデルの最終隠れ層の出力を入力とし、1〜2層のFeed-Forward Network（FFN）とReLU活性化関数を経て語彙サイズの出力を生成する。αはFFN層の追加パラメータ数であり、通常はhidden_dim × hidden_dim程度である。Medusa Headの追加パラメータはモデル全体の0.5〜2%程度と非常に小さい。

動作フローは以下の通りである。

ベースモデルのフォワードパスを通常通り実行し、最終隠れ層の出力 h_t を取得する
オリジナルLMヘッドで位置t+1のトークンを予測する
各Medusa Head kが h_t を入力として位置t+k+1のトークンを予測する
各ヘッドの上位候補を組み合わせてツリー構造の候補集合を構築する
ツリーアテンションを用いてターゲットモデルで全候補を一括検証する

Medusa-1とMedusa-2の違い

Medusaには検証方式の異なる2つのバージョンが存在する。

Medusa-1: 典型的採択（Typical Acceptance）

Medusa-1は、標準的な修正棄却サンプリングではなく、「典型的採択（Typical Acceptance）」と呼ばれる近似的な検証方式を使用する。典型的採択では、ターゲットモデルの出力確率が一定の閾値を超えるトークンを採択する。

具体的には、位置iの候補トークンxiに対して、ターゲットモデルの確率p(xi)がエントロピーベースの閾値ε以上であれば採択する。この方式は実装が単純で高速だが、出力分布がターゲットモデルと厳密には一致しないため、ごくわずかな品質差異が生じる可能性がある。

Medusa-2: 修正棄却サンプリング

Medusa-2は、標準的な投機的デコーディングと同じ修正棄却サンプリングを適用する。これにより、出力分布がターゲットモデルと数学的に同一であることが保証される。ただし、Medusa HeadはResidue Connection（残差接続）を含む改良版アーキテクチャを使用しており、Medusa-1よりも高い予測精度を実現する。

特性	Medusa-1	Medusa-2
検証方式	典型的採択（近似）	修正棄却サンプリング（厳密）
出力分布	ターゲットと近似的に一致	ターゲットと厳密に一致
Head構造	単純FFN	Residual FFN（残差接続付き）
訓練方式	ベースモデル固定、Head のみ訓練	ベースモデル固定、Head のみ訓練
スピードアップ

訓練パラメータ	推奨値	説明
エポック数	1〜3	少数エポックで十分な精度が得られる
学習率	1e-3〜3e-3	AdamW optimizer
バッチサイズ	16〜64	GPUメモリに応じて調整
訓練データ量	10K〜100K サンプル	ShareGPT程度のデータで十分
GPU時間	数時間〜1日	A100 1枚で7Bモデル用ヘッドを訓練可能
Head数	3〜5	5以上はスピードアップの飽和が見られる

ツリー名	ノード数	構造	期待採択数
mc_sim_7b_63	63	幅広、浅い	3.0〜3.5
mc_sim_7b_127	127	幅広、中深度	3.5〜4.0
mc_sim_7b_255	255	最大	4.0〜4.5

比較項目	Medusa	EAGLE
予測対象	トークン（離散）	特徴量（連続）
ヘッド構造	独立FFN	自己回帰FFN
採択率	0.6〜0.75	0.7〜0.85
スピードアップ	2〜3倍	2.5〜4倍
追加パラメータ	0.5〜2%	1〜3%
訓練コスト	数時間（A100 1枚）	数時間〜半日（A100 1枚）

メニュー

Medusa（マルチヘッド投機的デコーディング）（メデューサ（マルチヘッドトウキテキデコーディング））

メニュー

Medusa（マルチヘッド投機的デコーディング）（メデューサ（マルチヘッドトウキテキデコーディング））

この用語に関連するコンテンツ

Medusaの基本アーキテクチャ

Medusa-1とMedusa-2の違い

Medusa-1: 典型的採択（Typical Acceptance）

Medusa-2: 修正棄却サンプリング

Medusa Headの訓練方法

ツリー構造の候補構築

EAGLE: Medusaの発展形

デプロイと運用上の考慮事項

よくある質問（FAQ）

Q1: Medusa Headは何個まで追加できますか？

Q2: Medusaは全てのLLMに適用できますか？

Q3: MedusaとEAGLE、どちらを使うべきですか？

関連用語