大規模言語モデル(Teacher)の知識を小型モデル(Student)へ転写し、推論コスト削減と精度維持を両立させる技術の総称
LLMモデル蒸留(Model Distillation)とは、パラメータ数の大きな教師モデル(Teacher)が出力するソフトラベルやロジットを学習信号として、より小型の生徒モデル(Student)を訓練する手法である。2015年にGeoffrey Hintonらが提案した知識蒸留(Knowledge Distillation)の枠組みをLLMに適用したもので、2024〜2026年にかけてGPT-4o mini、Gemini 2.0 Flash、Claude 3.5 Haiku、Phi-4、Mistral Small 3など商用・OSSの両面で大規模に採用されている。
蒸留の最大の利点は推論コストの劇的な削減にある。たとえばGPT-4o(推定1.8Tパラメータ)からGPT-4o mini(推定8B)への蒸留では、API料金が$2.50/1M tokens → $0.15/1M tokensと約94%削減される一方、MMLU-Proスコアは82.3 → 73.5と約89%の精度を維持する。
蒸留プロセスは以下の3ステップで構成される:
温度パラメータ(Temperature τ)はソフトラベルの「なめらかさ」を制御する重要なハイパーパラメータで、τ=1.0〜5.0の範囲が一般的に使用される。τが高いほどTeacherの暗黙知(dark knowledge)がStudentに伝わりやすくなるが、過度に高いと情報がノイズ化する。
| 手法 | 概要 | 代表例 | 精度維持率 | 圧縮率 |
|---|---|---|---|---|
| ロジット蒸留 | 出力層の確率分布を転写 | DistilBERT, TinyLlama | 85-92% | 2-10x |
| 特徴量蒸留 | 中間層の表現を転写 | MiniLM, PKD |
| 88-95% |
| 2-6x |
| アテンション蒸留 | Attention重みパターンを転写 | TinyBERT, MobileBERT | 90-96% | 2-4x |
| 合成データ蒸留 | Teacherが生成したデータでFine-tune | Alpaca, Vicuna, Orca | 80-90% | 10-100x |
| オンライン蒸留 | Teacher/Student同時訓練 | Deep Mutual Learning | 92-97% | 1.5-3x |
2025〜2026年にかけて、主要AIプロバイダは蒸留を標準的な製品戦略として採用している:
| モデル | パラメータ | Teacher | ベンチマーク | ライセンス |
|---|---|---|---|---|
| Phi-4 | 14B | GPT-4合成データ | MMLU 81.2 | MIT |
| Llama 3.3 70B | 70B | Llama 3.1 405B | MMLU 86.0 | Llama License |
| Qwen2.5-7B | 7B | Qwen2.5-72B | MMLU 74.2 | Apache 2.0 |
| Gemma 2 9B | 9B | Gemma 2 27B | MMLU 71.3 | Gemma License |
| SmolLM2 1.7B | 1.7B | 合成データ | HellaSwag 72.5 | Apache 2.0 |
蒸留パイプラインの典型的な構成要素:
# 蒸留損失の計算(疑似コード)
teacher_logits = teacher_model(input_ids).logits
student_logits = student_model(input_ids).logits
# KLダイバージェンス損失(温度τ適用)
kl_loss = F.kl_div(
F.log_softmax(student_logits / tau, dim=-1),
F.softmax(teacher_logits / tau, dim=-1),
reduction='batchmean'
) * (tau ** 2)
# 最終損失 = α * KL損失 + (1-α) * CE損失
loss = alpha * kl_loss + (1 - alpha) * ce_loss
Q1: 蒸留とファインチューニングの違いは何ですか? A: ファインチューニングは人間が作成したラベル付きデータで既存モデルを追加学習する手法です。蒸留はTeacherモデルの出力(ソフトラベル)を学習信号として使う点が異なり、人間のアノテーションが不要でスケーラブルです。
Q2: 蒸留でどの程度のコスト削減が可能ですか? A: モデルサイズを1/10〜1/100に圧縮でき、推論コストは90〜99%削減可能です。GPT-4o → GPT-4o miniでは約94%のコスト削減を達成しています。
Q3: 蒸留モデルの弱点はありますか? A: 複雑な推論タスク(数学証明、コード生成の難問)ではTeacherとの精度差が広がる傾向があります。また、蒸留ではTeacherが間違える入力に対してStudentも同様に失敗しやすい「エラー継承」問題があります。
Q4: 自社データで蒸留する場合の注意点は? A: OpenAI等の利用規約で出力を競合モデルの訓練に使うことを禁止している場合があります。Apache 2.0やMITライセンスのOSSモデルをTeacherにすると法的リスクを回避できます。