Weight Decayとは？（ウェイトディケイ）わかりやすく解説

Q: Weight Decayとは？

モデルの重みパラメータに減衰係数を乗じて徐々に小さくすることで、過度に大きな重みの発生を抑制し汎化性能を高める正則化手法。AdamW最適化手法と組み合わせてLLM訓練の事実上の標準となっている。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Weight Decayとは？（ウェイトディケイ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

L2正則化とWeight Decayの違い

一見すると同一に見える L2 正則化と Weight Decay だが、適応的学習率アルゴリズムでは重要な違いがある。

観点	L2 正則化	Weight Decay
定義	損失関数に λ/2 *
SGD での等価性	等価	等価
Adam での等価性	非等価	非等価
勾配への影響	勾配に λw が加算される	勾配とは独立に重みを減衰
パラメータごとの効果	適応的学習率で変調される	全パラメータに均一に作用
実装	optimizer に weight_decay=λ（L2）	AdamW で decouple 実装

Adam + L2 正則化では、適応的学習率がパラメータごとに異なるため、正則化の効果もパラメータごとに不均一になる。AdamW はこの問題を解決するために Loshchilov & Hutter（2019）が提案した手法であり、Weight Decay を最適化ステップから分離（decouple）している。

モデル	Weight Decay	最適化手法	備考
GPT-2	0.01	Adam	初期設定
GPT-3	0.1	Adam	大規模モデルで増加
LLaMA	0.1	AdamW	β1=0.9, β2=0.95
LLaMA 2	0.1	AdamW	同上
PaLM	0.1	Adafactor	Google 独自最適化
Chinchilla	0.1	AdamW	計算最適スケーリング
Mistral 7B	0.1	AdamW	β1=0.9, β2=0.95
Phi-2	0.1	AdamW	Microsoft Research

パラメータ種別	Weight Decay 適用	理由
線形層の重み行列	適用する	過学習防止の主対象
バイアス項	適用しない	パラメータ数が少なく正則化不要
LayerNorm のスケール/シフト	適用しない	正規化の効果を阻害する
Embedding 層	モデルによる	適用する場合と除外する場合がある
Position Encoding	通常適用しない	位置情報の学習を阻害する

学習率スケジュール	Weight Decay の挙動	注意点
定数学習率	一定の正則化効果	基本的なケース
Cosine Annealing	学習率低下に伴い Weight Decay の相対的影響が増大	訓練後半で正則化が強まる
Linear Warmup	Warmup 中は Weight Decay の相対的影響が大きい	初期重みの大幅な縮小に注意
Step Decay	段階的に正則化バランスが変化	各段階でのチューニングが必要

Fine-tuning 手法	推奨 Weight Decay	理由
Full Fine-tuning	0.01〜0.1	事前訓練知識の保持
LoRA	0.0〜0.01	低ランク行列のみ更新
QLoRA	0.0〜0.01	量子化 + LoRA
Prefix Tuning	0.0	プレフィックスパラメータのみ
Adapter	0.01〜0.1	Adapter 層のみに適用

研究テーマ	概要	期待される効果
Adaptive Weight Decay	訓練進行に応じて λ を動的に調整	チューニング不要化
Layer-wise Weight Decay	層ごとに異なる λ を設定	深層ネットワークの最適化改善
Decoupled Weight Decay v2	AdamW の改良版	さらなる汎化性能向上
Weight Decay + SAM	SAM 最適化との組み合わせ	平坦な最小値への収束
Gradient-Informed Decay	勾配情報に基づく適応的減衰	パラメータ重要度の反映

メニュー

Weight Decay（ウェイトディケイ）

メニュー

Weight Decay（ウェイトディケイ）

この用語に関連するコンテンツ

Weight Decayとは

L2正則化とWeight Decayの違い

LLMにおけるWeight Decayの設定

Weight Decayの適用範囲

Weight Decayと学習率の関係

Fine-tuningにおけるWeight Decay

最新の研究動向

よくある質問（FAQ）

Q1: Weight Decay 0.1 は大きすぎないか？

Q2: AdamW の代わりに Adam + L2 正則化を使ってもよいか？

Q3: バイアス項にWeight Decayを適用しない理由は？

関連用語