LLM学習率スケジューリングとは？（エルエルエムガクシュウリツスケジューリング）わかりやすく解説

Q: LLM学習率スケジューリングとは？

LLM（大規模言語モデル）の訓練において、学習率を訓練ステップに応じて動的に変化させる戦略の総称。固定学習率では収束が不安定になりがちな数十億パラメータ規模のモデルに対し、ウォームアップ・コサインアニーリング・ワンサイクルなど多彩なスケジューラが開発され、訓練効率と最終精度を大幅に改善する。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

LLM学習率スケジューリングとは？（エルエルエムガクシュウリツスケジューリング）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

主要スケジューラ一覧と比較

スケジューラ	数式概要	典型パラメータ	主な採用モデル	収束特性
Step Decay	η = η₀ × γ^(step/milestone)	γ=0.1, milestone=30ep	ResNet, VGG（CV系）	段階的、LLMには不向き
Exponential Decay	η = η₀ × e^(-λt)	λ=0.01	旧世代RNN/LSTM	単調減衰、調整困難
Cosine Annealing	η = η_min + 0.5(η_max-η_min)(1+cos(πt/T))	T=total_steps	Llama 3, GPT-4, Mistral	滑らか、LLM標準
Linear Warmup + Cosine	warmup→cosine decay	warmup=2000steps	Llama 3 (2K warmup)	現行LLM最多採用

import torch
from torch.optim import AdamW
from torch.optim.lr_scheduler import CosineAnnealingLR, LinearLR, SequentialLR

model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3-8B")
optimizer = AdamW(model.parameters(), lr=3e-4, weight_decay=0.1)

# Linear Warmup (2000 steps) + Cosine Annealing
warmup = LinearLR(optimizer, start_factor=1e-6/3e-4, total_iters=2000)
cosine = CosineAnnealingLR(optimizer, T_max=98000, eta_min=3e-5)
scheduler = SequentialLR(optimizer, [warmup, cosine], milestones=[2000])

for step, batch in enumerate(dataloader):
    loss = model(**batch).loss
    loss.backward()
    optimizer.step()
    scheduler.step()
    optimizer.zero_grad()

メニュー

LLM学習率スケジューリング（エルエルエムガクシュウリツスケジューリング）

メニュー

LLM学習率スケジューリング（エルエルエムガクシュウリツスケジューリング）

この用語に関連するコンテンツ

LLM学習率スケジューリングとは

主要スケジューラ一覧と比較

学習率とLLM訓練の関係

ロスランドスケープの特性

Chinchilla スケーリング則との関係

PyTorch での実装例

Hugging Face Transformers の統合

実モデルでの採用例

学習率スケジューリングのベストプラクティス

事前学習（Pre-training）

ファインチューニング

FAQ

Q1: 学習率スケジューラを使わないとどうなる？

Q2: コサインアニーリングと線形減衰はどちらが良い？

Q3: ウォームアップのステップ数はどう決める？

Q4: 学習率の再ウォームアップ（Re-warmup）とは？

関連用語