RLHF PPO訓練は、報酬モデルのスコアを最大化しつつ参照ポリシーからの乖離を制御する強化学習フェーズである。Proximal Policy Optimizationアルゴリズムでクリッピングベースの方策更新を行い、KLダイバージェンスペナルティで出力の安定性を維持する。
RLHF PPO訓練はRLHFパイプラインの最終段階(Stage 3)であり、学習済み報酬モデルのスコアを報酬信号としてLLMの方策(ポリシー)を強化学習で最適化するプロセスである。Schulman et al.(2017)が提案したPPOアルゴリズムがデファクト標準となっている。
PPO(Proximal Policy Optimization)は方策勾配法の一種で、方策更新の幅をクリッピングにより制限することで学習の安定性を確保する。LLMのRLHFにおいては、各タイムステップでトークンを生成するアクションに対し、応答全体の完成後に報酬モデルから得たスコアを報酬信号として方策を更新する。
PPO訓練の目的関数は:
J(θ) = E[r_RM(x, y) - β * KL(π_θ || π_ref)]
ここでr_RM は報酬モデルスコア、β はKLペナルティ係数(通常0.01〜0.2)、π_θ は現在の方策、π_ref はSFTモデル(参照ポリシー)である。
| パラメータ | 典型値 | 説明 | 感度 |
|---|---|---|---|
| KL係数β | 0.01〜0.2 | 参照ポリシーからの乖離ペナルティ | 非常に高い |
| クリップε | 0.2 | 方策更新のクリッピング範囲 | 中程度 |
| GAE λ | 0.95 | アドバンテージ推定の減衰率 |
| 低い |
| 学習率 | 1e-6〜5e-6 | 方策ネットワークの学習率 | 高い |
| バッチサイズ | 64〜512 | プロンプト数/バッチ | 中程度 |
| PPOエポック | 2〜4 | ミニバッチの反復回数 | 中程度 |
| 応答最大長 | 512〜2048 | 生成トークン上限 | 低い |
KLダイバージェンスペナルティはRLHF PPOの最も重要な正則化メカニズムである:
Q1: PPO訓練にはどのくらいの計算資源が必要か? A: 7Bモデルで4×A100 80GB、1〜3日程度が目安。70Bモデルでは8×A100以上で1週間前後。参照モデルをLoRAで圧縮し、vLLMで推論を高速化する構成が2025年のベストプラクティス。DeepSpeed-ChatのHybrid Engine は学習と推論を統合しスループットを2〜3倍改善する。
Q2: KL係数βはどう決めるのか? A: 適応方式(target_kl=6.0 nat程度)から開始し、報酬スコアとKL値の推移を監視するのが実用的。報酬が上昇しKLが10 nat以下なら順調。KLが20 natを超えたら報酬ハッキングの兆候。固定方式ではβ=0.05〜0.1が安全な初期値。
Q3: PPOとDPOはどちらが性能が上か? A: 大規模データ(50万ペア以上)・大規模モデル(70B+)ではPPOがDPOを上回る事例が多い(Llama 2、GPT-4)。中小規模(7B〜13B、10万ペア以下)ではDPOが同等以上の性能をはるかに少ない計算コストで達成する。2025年時点ではGRPO・ReMaxなどPPOの軽量代替が研究の主流。