LLM(大規模言語モデル)の学習を支える最適化アルゴリズムの総称。勾配降下法を基盤とし、数十億〜数兆パラメータを効率よく更新するための手法群を指す。Adam 系、符号ベース、スケジュールフリーなど多様な派生が研究されており、学習の安定性・収束速度・最終精度に直結する重要技術である。
LLM オプティマイザ(LLM Optimizer)は、大規模言語モデルの訓練において損失関数を最小化するためにパラメータを反復的に更新するアルゴリズム群の総称である。ニューラルネットワークの学習は本質的に非凸最適化問題であり、数十億〜数兆個のパラメータに対して効率よく勾配情報を活用する手法が求められる。
2024〜2026 年にかけて、GPT-4、Gemini、Llama 3、Qwen 3 など主要 LLM が相次いで公開され、その裏側で最適化アルゴリズムの選択が学習コスト・収束速度・最終性能に大きな影響を与えることが広く認知されるようになった。従来の SGD(確率的勾配降下法)から Adam 系への移行は 2014 年頃に始まったが、LLM のスケールでは Adam の改良版である AdamW が事実上の標準となり、さらに Lion、Sophia、Schedule-Free Optimizer など新世代の手法が実用段階に入っている。
オプティマイザの役割は単にパラメータを更新することにとどまらず、学習率スケジューリング・正則化・メモリ効率・分散学習との親和性など、訓練パイプライン全体の設計に深く関わる。
勾配降下法はパラメータ θ を損失関数 L の勾配 ∇L の逆方向に更新する最も基本的な最適化手法である:
θ_{t+1} = θ_t − η · ∇L(θ_t)
ここで η は学習率(learning rate)である。しかし、LLM の訓練では以下の理由から素朴な SGD では不十分となる:
これらの課題に対処するため、適応的学習率(adaptive learning rate)を持つ Adam 系オプティマイザが LLM 訓練のデファクトスタンダードとなった。
| 分類 | 代表手法 | 特徴 | LLM での採用例 |
|---|---|---|---|
| モーメンタム系 | SGD + Momentum, Nesterov | 勾配の指数移動平均で更新方向を安定化 | 画像モデル中心、LLM では稀 |
| 適応学習率系 | Adam, AdamW, Adafactor | パラメータごとに学習率を自動調整 | GPT-4, Llama 3, Gemini |
| 符号ベース |
| Lion, SignSGD |
| 勾配の符号のみを使い更新 |
| Google 内部モデル |
| 二次近似系 | Sophia, K-FAC | 曲率情報(Hessian)を近似利用 | 研究段階〜実用初期 |
| スケジュールフリー | Schedule-Free AdamW | 学習率スケジュール不要で同等性能 | Meta 研究、OSS 採用増 |
LLM 訓練においてオプティマイザのメモリ消費は無視できない。Adam 系はパラメータごとに 1 次モーメント(m)と 2 次モーメント(v)の 2 つの状態を保持するため、パラメータ本体の 2 倍のメモリを追加で消費する。70B パラメータモデルを FP32 で訓練する場合:
| 項目 | メモリ量 |
|---|---|
| パラメータ本体(FP32) | 280 GB |
| 勾配(FP32) | 280 GB |
| Adam 1次モーメント(FP32) | 280 GB |
| Adam 2次モーメント(FP32) | 280 GB |
| 合計 | 1,120 GB |
この膨大なメモリ要求に対処するため、混合精度訓練(BF16/FP16 パラメータ + FP32 オプティマイザ状態)、ZeRO(Zero Redundancy Optimizer)によるシャーディング、勾配チェックポインティングなどの技術が組み合わされる。
Lion のような符号ベースのオプティマイザはモーメントを 1 つしか持たないため、Adam の半分のオプティマイザメモリで済む。Adafactor はモーメントを行・列に分解して保持することでメモリを大幅に削減する。
オプティマイザの性能は学習率スケジュール(learning rate schedule)と密接に関係する。LLM 訓練で広く用いられるスケジュールは:
Schedule-Free Optimizer は学習率スケジュール自体を不要にするアプローチで、ハイパーパラメータチューニングの工数を大幅に削減できる可能性がある。
| スケジュール | Warmup | 減衰方式 | 代表モデル | 備考 |
|---|---|---|---|---|
| Cosine Decay | あり | コサイン曲線 | GPT-3, Llama 3 | 最も一般的 |
| Linear Decay | あり | 線形 | BERT, RoBERTa | 簡潔で安定 |
| WSD | あり | 3 段階 | MiniCPM | 中間 checkpoint 有利 |
| Schedule-Free | 不要 | 内部で自動 | 研究段階 | チューニング工数削減 |
LLM オプティマイザの主要ハイパーパラメータとチューニング指針を示す:
| パラメータ | AdamW 典型値 | 影響 | チューニング指針 |
|---|---|---|---|
| 学習率 η | 1e-4〜3e-4 | 収束速度・安定性 | モデルサイズに反比例させる |
| β1 | 0.9 | モーメンタムの強さ | 0.9 が安定、大バッチでは 0.95 も |
| β2 | 0.95〜0.999 | 適応学習率の感度 | LLM では 0.95 が主流(0.999 は不安定) |
| ε | 1e-8 | ゼロ除算防止 | 通常変更不要 |
| weight_decay | 0.01〜0.1 | 正則化の強さ | 0.1 が LLM では一般的 |
| gradient_clip | 1.0 | 勾配爆発防止 | 必須。1.0 が標準 |
| warmup_steps | 1000〜5000 | 初期安定化 | 総ステップの 0.1〜1% |
β2 の設定は LLM 訓練で特に重要である。従来の Adam では β2 = 0.999 が推奨されていたが、LLM のスケールでは学習不安定(loss spike)の原因となることが報告されており、GPT-3 以降は β2 = 0.95 が主流となった。
AdamW はパラメータごとの適応学習率と正しい重み減衰の組み合わせにより、LLM の大規模かつ不均一なパラメータ空間に対して安定した収束を実現する。さらに、DeepSpeed・FSDP・Megatron-LM など主要な分散学習フレームワークすべてが AdamW を第一級でサポートしており、実装の信頼性とエコシステムの成熟度が選択の決め手となっている。
オプティマイザ単体での性能差は、同じ計算予算(FLOPs)で比較すると数%程度であることが多い。ただし、Lion や Sophia は同じ最終性能に到達するまでのステップ数が AdamW より少ないケースが報告されており、計算コスト削減の観点で意味がある。また、メモリ効率の違いにより同じハードウェアでより大きなバッチサイズを使える場合、間接的に性能向上に寄与する。
プリトレーニングでは AdamW + Cosine Decay が最も検証された組み合わせであり、特別な理由がなければこれを選ぶのが安全である。ファインチューニング(特に LoRA/QLoRA)では学習率を 1e-5〜1e-4 程度に下げた AdamW が一般的だが、パラメータ数が少ないため SGD + Momentum でも十分な結果が得られる場合がある。Schedule-Free Optimizer はファインチューニングでの学習率スケジュール設計を省略でき、実務的な利便性が高い。
bitsandbytes ライブラリが提供する 8-bit Adam は、オプティマイザ状態(m, v)を INT8 に量子化することでメモリ消費を約 75% 削減する。動的量子化とブロック単位の正規化により精度劣化を最小限に抑えつつ、消費者向け GPU(RTX 4090 等)でも大規模モデルのファインチューニングを可能にする。QLoRA で広く利用されている。