Elastic Weight Consolidation（EWC）とは？（エラスティックウェイトコンソリデーション）わかりやすく解説

Q: Elastic Weight Consolidation（EWC）とは？

Kirkpatrick et al.（2017）がDeepMindから発表した継続学習手法。Fisher情報行列を用いて各パラメータの旧タスクに対する重要度を推定し、重要なパラメータの変更に二次ペナルティを課すことで破壊的忘却を防ぐ。名称は「弾性的な重み固定」を意味する。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Elastic Weight Consolidation（EWC）とは？（エラスティックウェイトコンソリデーション）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

数学的定式化

EWC の損失関数は以下の形で定義される。

L_total = L_new(θ) + (λ/2) Σ_i F_i (θ_i - θ*_i)²

L_new(θ): 新タスクの損失関数
θ*_i: 旧タスク学習後のパラメータiの値
F_i: Fisher情報行列の対角要素（パラメータiの重要度）
λ: 正則化の強度（ハイパーパラメータ）

Fisher情報行列の対角要素 F_i は、旧タスクのデータに対する対数尤度の勾配の二乗平均として計算される。

F_i = E[(∂log p(y|x,θ*) / ∂θ_i)²]

F_i が大きいパラメータ = 旧タスクの出力に大きく影響するパラメータ = 変更すると旧タスク性能が大きく低下するパラメータ、という直感的な解釈が成り立つ。

処理フロー

旧タスクの学習: 通常通りタスクAを学習し、最適パラメータ θ*_A を取得
Fisher情報行列の計算: タスクAのデータを使って各パラメータの F_i を計算（サンプリング近似が一般的）
新タスクの学習: EWC 正則化つきの損失関数で新タスクBを学習
反復: タスクCの学習時は、タスクA+BのFisher情報を累積して使用

EWCの変種

手法	改良点	メモリ	計算コスト
EWC（原版）	Fisher行列の対角近似	O(P)	タスクごとにFisher計算
Online EWC	Fisher行列を指数移動平均で更新	O(P)	逐次更新で効率的
EWC++	Online EWC + Laplace近似の改良	O(P)	Online EWCと同等
Kronecker-factored EWC	Fisher行列のクロネッカー分解	O(√P)	ブロック構造を活用
Natural Gradient EWC	自然勾配法との統合	O(P)	収束が速い
Progressive Memory Banks	タスク別にFisher行列を保存	O(P×T)	過去全タスクを正確に保護

P = パラメータ数、T = タスク数

LLMへの適用

LLM（数十億パラメータ）への EWC 適用には特有の課題がある。

スケーラビリティの問題

70B モデルの Fisher 行列は 70B 要素（FP32 で約 280GB）のメモリが必要
対策: レイヤーごとのサンプリング近似、最重要パラメータのみの選択的保護、LoRA パラメータのみへの適用

ハイパーパラメータ調整

λ が大きすぎると新タスクの学習が不十分に（過度な安定性）
λ が小さすぎると忘却が防げない（過度な可塑性）
推奨範囲: λ = 100-10,000 で検証し、旧タスクのバリデーション損失が 10% 以上上昇しない最大のλを選択

性能ベンチマーク（LLMでの実験結果）

ベースモデル	タスク列	忘却率（EWCなし）	忘却率（EWC）	改善率
LLaMA-7B	英語→日本語	28.3%	12.1%	-57%
GPT-2 XL	QA→要約→翻訳	34.7%	18.5%	-47%
BERT-large	感情分析→NLI→NER	22.1%	8.9%	-60%
T5-base	5タスク逐次	31.5%	14.2%	-55%

利点と限界

利点

データの保存が不要（Experience Replay と異なり過去データを保持しない）
実装が比較的シンプル（損失関数に正則化項を追加するだけ）
プライバシー保護に有利（過去のデータを参照しない）

限界

Fisher 行列の対角近似はパラメータ間の相関を無視しており、保護が不完全
タスク数が増えるとFisher行列の累積による「パラメータの飽和」が発生
LLM 規模では Fisher 計算自体が高コスト
最適な λ の選択がタスクとモデルに依存し、汎用的な設定が困難

よくある質問（FAQ）

Q1: EWCとL2正則化の違いは何ですか？ A: L2正則化はすべてのパラメータを均等に初期値に引き寄せるが、EWCは旧タスクにとって重要なパラメータのみを強く保護する。この「選択的保護」がEWCの核心で、L2正則化より30-50%忘却軽減効果が高い。

Q2: Fisher情報行列の計算にはどの程度のデータが必要ですか？ A: 旧タスクのデータからサンプリングして推定するのが一般的。サンプル数は 200-1,000 で十分な精度が得られる。全データを使う必要はなく、計算コストは線形スケール。

Q3: EWCとExperience Replayを組み合わせることはできますか？ A: 非常に効果的な組み合わせ。EWC でパラメータ空間の保護を行いつつ、少量の旧データリプレイで出力空間の一貫性も保つ。両手法の併用で単独使用より15-25%忘却をさらに軽減できる。

まとめ

EWC は Fisher 情報行列でパラメータの重要度を推定し、重要パラメータの変更にペナルティを課す
破壊的忘却を 47-60% 軽減する実績ある手法
LLM 適用にはスケーラビリティ対策（サンプリング近似・LoRA限定適用）が必要
Experience Replay との併用でさらに効果向上
Online EWC バリアントが逐次学習での実用に適する

メニュー

Elastic Weight Consolidation（EWC）（エラスティックウェイトコンソリデーション）

この用語に関連するコンテンツ

メニュー

Elastic Weight Consolidation（EWC）（エラスティックウェイトコンソリデーション）

この用語に関連するコンテンツ