Kirkpatrick et al.(2017)がDeepMindから発表した継続学習手法。Fisher情報行列を用いて各パラメータの旧タスクに対する重要度を推定し、重要なパラメータの変更に二次ペナルティを課すことで破壊的忘却を防ぐ。名称は「弾性的な重み固定」を意味する。
Elastic Weight Consolidation(EWC)は、継続学習における破壊的忘却を防ぐ正則化ベースの手法である。2017年にDeepMindの Kirkpatrick et al. が論文「Overcoming catastrophic forgetting in neural networks」で発表し、当時 PNAS に掲載された影響力の大きい研究である。
EWC の中心的なアイデアは、ベイズ推定に基づく。旧タスクで学習済みの重みθを事後分布の最頻値(MAP推定)と捉え、新タスクの学習時にθからの逸脱にペナルティを課す。ただし、すべてのパラメータを均等に保護するのではなく、旧タスクにとって重要なパラメータをより強く保護する。この「重要度」の推定にFisher情報行列を使用する。
EWC の損失関数は以下の形で定義される。
L_total = L_new(θ) + (λ/2) Σ_i F_i (θ_i - θ*_i)²
Fisher情報行列の対角要素 F_i は、旧タスクのデータに対する対数尤度の勾配の二乗平均として計算される。
F_i = E[(∂log p(y|x,θ*) / ∂θ_i)²]
F_i が大きいパラメータ = 旧タスクの出力に大きく影響するパラメータ = 変更すると旧タスク性能が大きく低下するパラメータ、という直感的な解釈が成り立つ。
| 手法 | 改良点 | メモリ | 計算コスト |
|---|---|---|---|
| EWC(原版) | Fisher行列の対角近似 | O(P) | タスクごとにFisher計算 |
| Online EWC | Fisher行列を指数移動平均で更新 | O(P) | 逐次更新で効率的 |
| EWC++ | Online EWC + Laplace近似の改良 | O(P) | Online EWCと同等 |
| Kronecker-factored EWC | Fisher行列のクロネッカー分解 | O(√P) | ブロック構造を活用 |
| Natural Gradient EWC | 自然勾配法との統合 | O(P) | 収束が速い |
| Progressive Memory Banks | タスク別にFisher行列を保存 | O(P×T) | 過去全タスクを正確に保護 |
P = パラメータ数、T = タスク数
LLM(数十億パラメータ)への EWC 適用には特有の課題がある。
| ベースモデル | タスク列 | 忘却率(EWCなし) | 忘却率(EWC) | 改善率 |
|---|---|---|---|---|
| LLaMA-7B | 英語→日本語 | 28.3% | 12.1% | -57% |
| GPT-2 XL | QA→要約→翻訳 | 34.7% | 18.5% | -47% |
| BERT-large | 感情分析→NLI→NER | 22.1% | 8.9% | -60% |
| T5-base | 5タスク逐次 | 31.5% | 14.2% | -55% |
Q1: EWCとL2正則化の違いは何ですか? A: L2正則化はすべてのパラメータを均等に初期値に引き寄せるが、EWCは旧タスクにとって重要なパラメータのみを強く保護する。この「選択的保護」がEWCの核心で、L2正則化より30-50%忘却軽減効果が高い。
Q2: Fisher情報行列の計算にはどの程度のデータが必要ですか? A: 旧タスクのデータからサンプリングして推定するのが一般的。サンプル数は 200-1,000 で十分な精度が得られる。全データを使う必要はなく、計算コストは線形スケール。
Q3: EWCとExperience Replayを組み合わせることはできますか? A: 非常に効果的な組み合わせ。EWC でパラメータ空間の保護を行いつつ、少量の旧データリプレイで出力空間の一貫性も保つ。両手法の併用で単独使用より15-25%忘却をさらに軽減できる。