Experience Replay（経験再生）とは？（エクスペリエンスリプレイ）わかりやすく解説

過去のタスクの訓練データを小さなバッファ（メモリ）に保存し、新タスクの学習時に過去データと混合して訓練することで破壊的忘却を防ぐ継続学習手法。人間の脳の海馬リプレイ機構に着想を得ており、実装が直感的かつ効果が高いことから最も広く使われている。

Experience Replay（経験再生）とは？（エクスペリエンスリプレイ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

基本構造

Experience Replay の基本構造は以下の通りである。

[メモリバッファ M] ← 旧タスクのデータをサンプリング保存
[新タスクデータ D_new] + [メモリバッファ M からのサンプル]
→ 混合バッチで学習
→ 学習後、新タスクのデータの一部を M に追加

戦略	概要	メモリ効率	多様性
Reservoir Sampling	全データから等確率でサンプリング	高	高
Ring Buffer	FIFO で古いデータを順次置換	高	低（最新偏重）
Herding	クラス中心に近いサンプルを優先保存	中	中
Gradient-based	忘却に最も寄与するサンプルを優先	中	高

バッファサイズ（タスクあたり）	忘却率	新タスク性能	推奨場面
0（リプレイなし）	30-40%	最高	ベースライン
100 サンプル	15-20%	高	メモリ制約環境
500 サンプル	8-12%	高	標準的な設定
2,000 サンプル	3-5%	中-高	忘却最小化重視
10,000 サンプル	1-2%	中	メモリに余裕がある場合

パターン	バッファ内容	用途	バッファサイズ目安
Instruction Replay	旧タスクの指示-応答ペア	Instruction Tuning の継続	5,000-20,000 ペア
Alignment Replay	RLHF の選好データ	安全性の維持	1,000-5,000 ペア
Language Replay	各言語のテキスト	多言語能力の維持	10,000 文/言語
Capability Replay	コード・数学・推論のサンプル	汎用能力の維持	5,000-10,000 サンプル

新:旧比	新タスク性能	旧タスク忘却率	推奨場面
1:0	最高	30-40%	ベースライン
3:1	高	10-15%	新タスク重視
1:1	中-高	5-8%	バランス型
1:3	中	2-3%	旧タスク保護重視
1:5	低-中	1-2%	忘却最小化