カリキュラム学習(Curriculum Learning)とは、人間の教育課程に着想を得て、訓練データを簡単なサンプルから難しいサンプルへと段階的に提示する機械学習の訓練戦略である。LLM の文脈では、テキストの複雑度・長さ・ドメイン専門性などに基づいてデータ順序を最適化し、収束速度の向上と最終性能の改善を実現する。
カリキュラム学習(Curriculum Learning)は、2009年にYoshua Bengioらが提唱した訓練パラダイムである。人間が小学校→中学校→高校と段階的に難易度を上げて学習するように、機械学習モデルにも「易しいデータから難しいデータへ」という順序で学習させることで、収束の高速化・汎化性能の向上・局所最適解の回避を狙う。
LLM(大規模言語モデル)の事前学習では、数兆トークン規模のコーパスをどの順序で提示するかが最終性能に大きく影響する。ランダムシャッフルが標準的だが、カリキュラム学習を適用することで同じ計算予算でより高い性能を達成できることが複数の研究で実証されている。Google Research の2024年の論文では、PaLM 62B 相当のモデルでカリキュラム学習により約15%の訓練ステップ削減を報告している。
カリキュラム学習の核心は「何をもって簡単・難しいとするか」という難易度指標(difficulty measure)の設計にある。LLM の訓練では以下の指標が代表的である。
| 難易度指標 | 計算方法 | 適用例 | メリット | デメリット |
|---|---|---|---|---|
| パープレキシティ | 小規模モデルでの予測困難度 | GPT系事前学習 | 言語的複雑さを直接反映 | 事前にproxyモデルが必要 |
| テキスト長 | トークン数・文字数 | 段階的長文化学習 | 計算コストゼロ | 短い≠簡単の場合あり |
| 語彙レベル | 頻出語率・専門用語比率 | ドメイン適応 | 言語学的に解釈可能 | 語彙リスト依存 |
| タスク正解率 | ベースラインモデルの正答率 | Instruction Tuning | タスク難易度を直接反映 | ラベル付きデータ必要 |
| データ品質スコア | フィルタリングモデルの予測 | Common Crawl前処理 | ノイズ除去と統合可 | 品質≠難易度の混同リスク |
MetaのLLaMA 3(2024年)では、訓練の後半フェーズでコードや数学データの比率を段階的に引き上げる「データミキシングカリキュラム」を採用し、LLaMA 2対比で数学ベンチマーク(GSM8K)を20ポイント以上改善した。
最も基本的な戦略で、データセットを難易度でN段階に分割し、簡単なバケットから順に学習する。段階間の切り替えは固定エポック数またはバリデーション損失の閾値で制御する。実装が単純で再現性が高い反面、段階境界でのカタストロフィック・フォゲッティング(過去の知識忘却)が問題になることがある。
訓練初期は簡単なデータのみ、進行に伴い難しいデータの混合比率を連続的に増加させる。Baby Stepの離散的な段階切り替えを連続関数(線形・指数・コサイン)で平滑化したもので、忘却リスクが低減される。Chinchillaスケーリング則を踏まえたDeepMindの研究では、コサインアニーリングカリキュラムが最も安定した結果を示している。
直感に反するが、難しいデータから先に学習させる戦略。特定のタスク(ノイズ耐性が必要な場合やアウトライア処理)では、難しいサンプルへの早期露出が汎化に寄与することが報告されている。ただしLLMの大規模事前学習では標準カリキュラム(易→難)が一般に優位であり、Anti-Curriculumの適用は限定的である。
LLMのカリキュラム学習を実装するには、データローダーに難易度ソーティングとサンプリング制御を組み込む必要がある。典型的なアーキテクチャは以下の通りである。
計算コストの観点では、proxy モデルによるスコアリングが追加オーバーヘッドとなる。LLaMA 3の場合、8Bパラメータのproxy モデルで405Bモデル用のスコアリングを行い、全体訓練コストの約2%の追加で15%以上の収束加速を実現している。
| モデル | 手法 | 訓練ステップ削減 | 最終性能向上 | 追加コスト |
|---|---|---|---|---|
| PaLM 62B | パープレキシティCL | 15% | +1.2 MMLU | ~3% |
| LLaMA 3 405B | データミキシングCL | 非公開 | +20 GSM8K | ~2% |
| Pythia 6.9B | Baby Step CL | 10% | +0.8 HellaSwag | ~5% |
| BLOOM 176B | 多言語CL | 8% | +2.1 多言語平均 | ~4% |
| Gemma 2 27B | Annealing CL | 12% | +1.5 MMLU | ~2% |
カリキュラム学習の効果はモデルスケールが大きいほど顕著になる傾向がある。これはパラメータ数が多いモデルほどデータ順序への感度が高く、最適なカリキュラムによる収束改善の余地が大きいためと考えられている。
A: はい、適用可能である。特にInstruction Tuningでは、単純な指示(「この文を要約して」)から複雑な指示(「3つの観点から比較分析して」)へと段階的に学習させることで、複雑な指示への追従能力が向上する。FLAN-T5の訓練では類似の戦略が採用された。
A: 古典的カリキュラム学習では人手で難易度順序を定義するが、Self-Paced Learningではモデル自身の損失値に基づいて「現在の自分にとって簡単なサンプル」を自動選択する。近年の研究ではこの2つを統合したSelf-Paced Curriculum Learning(SPCL)が高い性能を示している。
A: proxy モデルによる事前スコアリングが主な追加コストで、全体の2〜5%程度である。ただし、収束加速による訓練ステップ削減(8〜15%)が上回るため、トータルコストはむしろ削減されるケースが多い。
A: データ品質が均一で量が十分な場合、カリキュラム学習の優位性は小さくなる。逆にノイズが多いデータセットや、特定ドメインへの適応が必要な場合に効果が顕著である。