Label Smoothingとは？（ラベルスムージング）わかりやすく解説

ワンホットラベルの正解確率を1.0から(1-ε)に下げ、残りのεを他クラスに均等配分することでモデルの過信を抑制し、予測のキャリブレーション精度と汎化性能を向上させる正則化手法。翻訳・要約などのLLMタスクで広く使用される。

Label Smoothingとは？（ラベルスムージング）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

数学的定式化

Label Smoothing を適用したクロスエントロピー損失は以下のように定式化される。

通常のクロスエントロピー損失：L_CE = -Σ y_i * log(p_i)（y はワンホットラベル、p はモデル出力確率）

Label Smoothing 適用後：y_smooth_i = y_i * (1 - ε) + ε / K

LLM では K が語彙サイズ（数万〜数十万）であるため、非正解トークンに配分される確率は極めて小さい。しかし、この微小な確率の存在がモデルの出力 logit の大きさを抑制し、過信を防ぐ効果がある。

Label Smoothing がモデルに与える影響を以下に整理する。

モデル/手法	Label Smoothing	ε 値	タスク
原著 Transformer	使用	0.1	機械翻訳
BERT	不使用	-	マスク言語モデル
GPT-2/3	不使用	-	自己回帰生成
T5	不使用	-	テキスト生成
mBART	使用	0.2	多言語翻訳
NLLB	使用	0.1	多言語翻訳
PaLM	不使用	-	汎用 LLM
LLaMA	不使用	-	汎用 LLM

派生手法	原理	利点
Token-Level Smoothing	トークンの頻度に応じて ε を調整	稀少トークンの学習改善
Unigram Smoothing	非正解ラベルを一様ではなくユニグラム分布で配分	言語的に妥当な分布
Adaptive Smoothing	訓練進行に応じて ε を変化	初期は強く後半は弱く
Focal Label Smoothing	Focal Loss と Label Smoothing の組み合わせ	困難サンプルへの注力
Bidirectional Smoothing	正解・非正解の両方向に平滑化	より滑らかな出力分布

キャリブレーション指標	説明	Label Smoothing の影響
ECE（Expected Calibration Error）	ビン分割による期待キャリブレーション誤差	大幅に改善（20〜40%）
MCE（Maximum Calibration Error）	最大キャリブレーション誤差	改善
Brier Score	確率予測の二乗誤差	改善
NLL（Negative Log-Likelihood）	対数尤度	若干悪化することがある

注意点	説明	対策
ε の選択	大きすぎると正解ラベルの情報が失われる	0.05〜0.2 の範囲で検証
パディングトークン	パディングに確率を配分しない	ignore_index の設定
特殊トークン	BOS/EOS に平滑化が必要か	タスクに応じて判断
温度との相互作用	Label Smoothing + 温度スケーリングの二重効果	一方のみ使用を推奨
混合精度訓練	FP16 での微小確率の精度	ε/K が FP16 の精度範囲内か確認