Logit蒸留とは、教師モデルのsoftmax出力層のlogit（対数確率）を生徒モデルが模倣する知識蒸留の最も基本的な手法で、KL-divergence損失を用いて教師の出力確率分布全体を生徒に転移する。

Logit蒸留とは？（ロジットジョウリュウ）わかりやすく解説

Logit蒸留とは？（ロジットジョウリュウ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

Word-Level vs Sequence-Level Logit蒸留

手法	粒度	メモリ使用量	精度	計算コスト	適用場面
Word-Level KD	各トークン独立	低（top-K保存）	中〜高	低い	大規模LLM（70B+）の蒸留
Sequence-Level KD	文全体の確率	高（全系列保存）	最高	非常に高い	高品質な小型モデル生成
Top-K Logit KD	上位K個のlogit	最低	中	最低	メモリ制約環境
On-Policy KD	生徒の出力で蒸留

プラットフォーム	教師logitアクセス	蒸留ツール	備考
Azure AI	Phi-3/Llama系のみ	Azure ML	logprobs APIで上位100まで取得可能
Google Vertex AI	Gemma系のみ	Vertex Training	GKDパイプライン統合
AWS SageMaker	自前ホスト必須	SageMaker Training	カスタムコンテナ必要
Hugging Face	全OSS対応	transformers Trainer	KDTrainerクラス提供