KL Divergence Lossとは？（ケーエルダイバージェンスロス）わかりやすく解説

Q: KL Divergence Lossとは？

Kullback-Leibler ダイバージェンスに基づく損失関数で、2 つの確率分布間の差異を測定する。LLM では知識蒸留（教師モデルの出力分布を生徒モデルに転写）や、RLHF における方策制約（元のモデルからの逸脱防止）に広く使われる。非対称性を持ち KL(P||Q) ≠ KL(Q||P) である点が特徴。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

KL Divergence Lossとは？（ケーエルダイバージェンスロス）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

KL Divergence Loss とは

KL Divergence（Kullback-Leibler ダイバージェンス）は、確率分布 P と Q の間の「情報量の差」を測定する非対称な距離尺度である。P を真の分布、Q を近似分布として：

D_KL(P || Q) = Σ P(x) * log(P(x) / Q(x))

LLM の文脈では、知識蒸留（Distillation）と RLHF/DPO のアライメント制約の 2 つの主要用途がある。2024-2026 年の LLM 開発では、大規模モデルの軽量化（蒸留）とアライメント制約として不可欠な損失関数となっている。

主な用途と特徴

1. 知識蒸留（Knowledge Distillation）

教師モデル（大規模）の出力確率分布を生徒モデル（小規模）に学習させる：

L_distill = α * T^2 * D_KL(P_teacher/T || P_student/T) + (1-α) * L_CE

T（温度）: 2-4 が標準。高温でソフトラベルの情報量増加
α: 蒸留損失と Cross-Entropy 損失のバランス。0.5-0.9
Llama 3.2 1B/3B: Llama 3.1 70B からの蒸留で KL Loss 使用
Gemma 2 2B: Gemma 2 27B からの蒸留
Phi-3-mini: GPT-4 の出力を教師として蒸留

蒸留ペア	教師	生徒	性能保持率	パラメータ削減
Llama 3.1 70B → 8B	70B	8B	92%	88.6%
Gemma 2 27B → 2B	27B	2B	85%	92.6%

距離尺度	対称性	用途	特徴
KL Divergence	非対称	蒸留, RLHF	最も標準的
Jensen-Shannon	対称	GAN	KL の対称化版
Wasserstein	対称	W-GAN	分布の形状を考慮
Total Variation	対称	理論解析	最大確率差
f-Divergence	非対称	一般化フレーム	KL, χ^2 等を統一

メニュー

KL Divergence Loss（ケーエルダイバージェンスロス）

メニュー

KL Divergence Loss（ケーエルダイバージェンスロス）

この用語に関連するコンテンツ

KL Divergence Loss とは

主な用途と特徴

1. 知識蒸留（Knowledge Distillation）

2. RLHF/DPO の KL 制約

3. VAE の正則化

KL Divergence の性質

実装のポイント

代替・関連する距離尺度

よくある質問（FAQ）

まとめ

関連用語