LLMモデル蒸留とは？（エルエルエムモデルジョウリュウ）わかりやすく解説

Q: LLMモデル蒸留とは？

大規模言語モデル（Teacher）の知識を小型モデル（Student）へ転写し、推論コスト削減と精度維持を両立させる技術の総称

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

LLMモデル蒸留とは？（エルエルエムモデルジョウリュウ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

蒸留の基本メカニズム

蒸留プロセスは以下の3ステップで構成される：

Teacher推論: 大規模モデルが訓練データに対してソフトラベル（確率分布）を生成
KL損失計算: TeacherとStudentの出力分布間のKLダイバージェンスを計算
Student最適化: ハードラベル損失（通常のCross-Entropy）とKL損失の加重和で勾配更新

温度パラメータ（Temperature τ）はソフトラベルの「なめらかさ」を制御する重要なハイパーパラメータで、τ=1.0〜5.0の範囲が一般的に使用される。τが高いほどTeacherの暗黙知（dark knowledge）がStudentに伝わりやすくなるが、過度に高いと情報がノイズ化する。

τ=1.0: 通常のソフトマックス出力をそのまま使用
τ=2.0〜3.0: 標準的な蒸留設定、多くの実験で最良結果
τ=5.0以上: 非常にフラットな分布、特殊用途向け

主要な蒸留手法の比較

手法	概要	代表例	精度維持率	圧縮率
ロジット蒸留	出力層の確率分布を転写	DistilBERT, TinyLlama	85-92%	2-10x
特徴量蒸留	中間層の表現を転写	MiniLM, PKD

モデル	パラメータ	Teacher	ベンチマーク	ライセンス
Phi-4	14B	GPT-4合成データ	MMLU 81.2	MIT
Llama 3.3 70B	70B	Llama 3.1 405B	MMLU 86.0	Llama License
Qwen2.5-7B	7B	Qwen2.5-72B	MMLU 74.2	Apache 2.0
Gemma 2 9B	9B	Gemma 2 27B	MMLU 71.3	Gemma License
SmolLM2 1.7B	1.7B	合成データ	HellaSwag 72.5	Apache 2.0

# 蒸留損失の計算（疑似コード）
teacher_logits = teacher_model(input_ids).logits
student_logits = student_model(input_ids).logits

# KLダイバージェンス損失（温度τ適用）
kl_loss = F.kl_div(
    F.log_softmax(student_logits / tau, dim=-1),
    F.softmax(teacher_logits / tau, dim=-1),
    reduction='batchmean'
) * (tau ** 2)

# 最終損失 = α * KL損失 + (1-α) * CE損失
loss = alpha * kl_loss + (1 - alpha) * ce_loss

メニュー

LLMモデル蒸留（エルエルエムモデルジョウリュウ）

メニュー

LLMモデル蒸留（エルエルエムモデルジョウリュウ）

この用語に関連するコンテンツ

LLMモデル蒸留とは

蒸留の基本メカニズム

主要な蒸留手法の比較

2025-2026年の最新動向

商用モデルの蒸留パイプライン

オープンソース蒸留モデル

蒸留実装の実践ガイド

HuggingFace Transformersでの実装例

よくある質問（FAQ）

まとめ

関連用語