大規模言語モデル(LLM)をデプロイ後も新しいデータや知識で継続的に更新し続ける技術群の総称。破壊的忘却(Catastrophic Forgetting)を回避しながら新知識を獲得するため、Elastic Weight Consolidation・Experience Replay・LoRAアダプタ等の手法が用いられる。
大規模言語モデル(LLM)の継続学習(Continual Learning / Lifelong Learning)は、一度訓練を完了したモデルを新しいデータ・タスク・知識で継続的に更新し続ける技術である。従来のLLM開発では「事前学習 → ファインチューニング → デプロイ」の一方通行パイプラインが主流だったが、実世界では知識は日々更新され、ユーザーのニーズも変化する。
継続学習の最大の課題は**破壊的忘却(Catastrophic Forgetting)**である。新しいデータで学習すると、以前に学んだ知識やタスク性能が大幅に劣化する現象で、1989年にMcCloskey & Cohenが初めて報告した。LLMの巨大なパラメータ空間でも、この問題は依然として深刻である。
2024-2025年にかけて、LoRAアダプタの動的切替・Knowledge Editing・Retrieval-Augmented Continual Learning等の新手法が急速に発展し、LLMの継続学習は実用化フェーズに入りつつある。
| 場面 | 具体例 | 従来のアプローチ | 継続学習のメリット |
|---|---|---|---|
| 知識の更新 | 法律改正・新製品発売・新研究成果 | 全体再訓練(数百万ドル) | 差分更新でコスト1/100以下 |
| ドメイン適応 | 汎用LLM→医療・法律・金融 | 専用ファインチューニング | 既存能力を保持しつつ適応 |
| ユーザー個別化 | 個人の文体・嗜好に適応 | 全ユーザー共通モデル | パーソナライズドLLM |
| マルチタスク拡張 | 新しいタスク(コード生成→SQL生成)の追加 | マルチタスク再訓練 | 既存タスク性能を維持 |
| 安全性更新 | 新しい有害パターンへの対応 | RLHF再実行 | 迅速なセーフティパッチ |
| データプライバシー |
| 特定データの「忘却」(Right to be Forgotten) |
| 再訓練 |
| Machine Unlearning |
LLM向け継続学習手法は大きく5つのカテゴリに分類される。
重要なパラメータの変動を抑制して旧知識を保護する。
過去のデータを記憶・再生して忘却を防ぐ。
モデル構造を拡張・分離して新旧タスクの干渉を防ぐ。
外部知識ストアを更新することでモデル自体の変更を最小化。
モデル内の特定の知識を外科的に修正する。
| 手法 | 忘却防止効果 | 新タスク性能 | メモリコスト | 計算コスト | LLM適用性 |
|---|---|---|---|---|---|
| EWC | 中 | 中 | 高(Fisher行列) | 中 | △(大規模で近似必要) |
| Experience Replay | 高 | 高 | 中(バッファ) | 中 | ○ |
| LoRA切替 | 非常に高 | 高 | 低(アダプタ小) | 低 | ◎ |
| RAG知識更新 | 非常に高 | 中 | 低 | 低 | ◎ |
| ROME/MEMIT | 高(局所) | - | 低 | 低 | ○(限定的) |
| 全体再訓練 | 完全 | 最高 | 非常に高 | 非常に高 | △(コスト大) |
Q1: 継続学習と追加ファインチューニングの違いは何ですか? A: 追加ファインチューニングは新データでモデルを更新する操作そのもの。継続学習はその際に破壊的忘却を防ぐ技術群を包含する上位概念。単純な追加ファインチューニングでは旧知識が大幅に劣化するが、EWC やリプレイ等の継続学習手法を適用することで忘却を 50-90% 抑制できる。
Q2: RAGで知識を更新すれば継続学習は不要ではないですか? A: 事実の更新(「現在の首相は誰」等)は RAG で十分対応可能。しかし、新しいスキル(新プログラミング言語の習得等)や推論パターンの変更はモデルのパラメータ自体の更新が必要。RAG と継続学習は相補的な関係にあり、事実更新は RAG、能力拡張は継続学習と使い分けるのがベストプラクティス。
Q3: LLMの継続学習はどの程度の計算コストですか? A: LoRA ベースの継続学習は全体再訓練の 1/50-1/100 のコスト。70B モデルの全体再訓練が $1M だとすると、LoRA 継続学習は $10K-20K 程度。知識編集(ROME/MEMIT)は単一事実の修正なら GPU 1台で数分、コストほぼゼロ。
Q4: 破壊的忘却はモデルサイズが大きいほど軽減されますか? A: パラメータ数が多いほど冗長性が増し、忘却は緩和される傾向がある。7B vs 70B では同じ継続学習タスクで忘却率が約 40% 減少する研究結果がある。しかし完全にはなくならないため、大規模モデルでも継続学習手法の適用は推奨される。