知識蒸留（Knowledge Distillation）とは？（チシキジョウリュウ）わかりやすく解説

T=1: 通常のsoftmax。教師の自信度をそのまま反映。dominant classに偏る
T=2〜4: 軽度の平滑化。top-5クラスの関係が明確になる。小規模タスクに適する
T=4〜8: 中度の平滑化。LLMのトークン蒸留で最も汎用的な範囲
T=8〜20: 強度の平滑化。ほぼ一様分布に近づく。語彙サイズ32,000〜128,000のLLMでは情報が薄まりすぎるリスク

知識蒸留とは、Geoffrey Hintonらが2015年に提案した手法で、教師モデルの出力確率分布（soft label）を温度パラメータで制御しながら生徒モデルに転移する技術であり、LLMの軽量化の理論的基盤となっている。

知識蒸留（Knowledge Distillation）とは？（チシキジョウリュウ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

Soft LabelとHard Labelの違い

特性	Hard Label	Soft Label (T=1)	Soft Label (T=4)
表現形式	one-hot [0,0,1,0]	[0.01,0.04,0.90,0.05]	[0.15,0.22,0.38,0.25]
情報量	最小（正解のみ）	中（確率分布）	最大（クラス間関係）
学習効率	低い	中程度	高い
ノイズ耐性	高い	中程度	低い（平滑化しすぎると劣化）

LLMでは元論文の分類タスク向け手法を以下のように拡張している：

フレームワーク	開発元	言語	LLM対応	特徴
TextBrewer	HFL	Python	GPT-2/BERT系	教育用途に最適、日本語対応
DistilBERT	Hugging Face	Python	BERT系	事前学習済み蒸留モデル提供
TinyLlama	Zhang et al.	Python	Llama系	1.1Bパラメータ、3T tokenで学習
MiniLLM	Microsoft	Python	GPT/OPT系	逆KL-divergenceで安定学習
GKD	Google	Python	Gemma/T5系	Generalized KD、on-policy蒸留