Chinchillaスケーリングとは、2022年にDeepMindのHoffmann et al.が発表した計算最適(Compute-Optimal)なLLM訓練に関する研究であり、固定計算予算下でモデルのパラメータ数Nと訓練データ量Dを等しい割合(N:D ≈ 1:20)でスケールさせるべきという知見を示した。
Chinchillaスケーリングは、2022年にDeepMindのJordan Hoffmann、Sebastian Borgeaud、Arthur Mensch らが発表した論文「Training Compute-Optimal Large Language Models」で示された、LLM訓練における計算最適条件に関する研究である。この研究は、当時主流だった「大きなモデルを少ないデータで訓練する」Kaplan流のアプローチを根本的に見直し、「適切なサイズのモデルを十分なデータで訓練する」計算最適戦略を提唱した。
2020年のKaplan et al.論文は、固定計算予算の下ではモデルサイズを最大化し、訓練を早期に打ち切るのが最適だと結論づけていた。この指針に従い、GPT-3(175B, 300Bトークン)やGopher(280B, 300Bトークン)はパラメータ数を優先した設計が採用されていた。
しかしHoffmann et al.は、Kaplanの実験では各スケールでの最適学習率が十分に探索されていなかった点を指摘し、より大規模かつ体系的な実験(400以上のモデル、70M〜16Bパラメータ、5B〜400Bトークン)を行い、以下の発見を報告した:
| モデル | パラメータ数 | 訓練トークン数 | N:D比 | 計算量(FLOP) | MMLU | HellaSwag |
|---|---|---|---|---|---|---|
| Gopher | 280B | 300B | 1:1.07 | 5.76×10²³ | 60.0% | 79.2% |
| Chinchilla | 70B | 1.4T | 1:20 | 5.76×10²³ | 67.6% | 80.8% |
| GPT-3 | 175B | 300B | 1:1.71 | 3.14×10²³ | — | 78.9% |
| Jurassic-1 | 178B | 300B | 1:1.69 | 3.2×10²³ | — | 77.6% |
同一計算予算 でGopherとChinchillaを比較すると、4倍小さいChinchillaがMMLUで+7.6ポイント、HellaSwagで+1.6ポイント上回った。この結果はGopherが「大きすぎて、データが少なすぎた」ことを明確に示した。
Hoffmann et al.の計算最適条件は以下のように導出される:
損失関数: L(N,D) = E + A/N^α + B/D^β(ここでE は不可約損失、α≈0.34、β≈0.28)
固定計算予算 C = 6ND(近似)の下で L を最小化すると:
N_opt(C) ∝ C^a、D_opt(C) ∝ C^b(ここで a ≈ 0.50、b ≈ 0.50)
つまり計算量Cを2倍にするとき、NもDもそれぞれ√2倍にスケールさせるのが最適である。これは実用的に N:D ≈ 1:20 の比率を導く。
Chinchilla論文のインパクトは業界全体に波及した:
近年は「推論時のコスト最適化」が重視され、Chinchilla最適を超えて訓練する「over-training」が主流になりつつある。訓練コストは一回だが推論コストは永続的に発生するため、小さなモデルを十分に訓練することが経済的に合理的という判断である。
Q1: Chinchilla最適のN:D=1:20とは具体的に何を意味するか? A: 10Bパラメータのモデルなら200Bトークンで訓練するのが計算最適という意味である。GPT-3は175Bパラメータを300Bトークンで訓練(N:D=1:1.7)しており、Chinchilla基準では約10倍の under-training であった。ただしこの比率は訓練コストのみを最適化した値であり、推論コストも含めると最適比率は変わる。
Q2: なぜ最近のモデルはChinchilla最適を超えて訓練するのか? A: 推論コストの経済性のためである。ChatGPTのような商用サービスでは、数十億回の推論が行われるため、推論時に小さなモデルを使う方がトータルコストを下げられる。Llama 3の8Bモデルは15Tトークンで訓練(N:D=1:1,875)されており、Chinchilla最適の約94倍のデータで訓練されているが、推論時の8Bモデルの低コストがそれを正当化する。
Q3: Chinchilla論文はなぜ「チンチラ」と命名されたのか? A: DeepMindのモデル命名規則による。前身モデル「Gopher」(ホリネズミ)に続く動物名として選ばれた。学術的な意味はないが、「Chinchilla Optimal」「Chinchilla Ratio」など、計算最適訓練の代名詞として定着した。