RLHF PPO訓練（Proximal Policy Optimization）とは？（アールエルエイチエフピーピーオークンレン）わかりやすく解説

RLHF PPO訓練は、報酬モデルのスコアを最大化しつつ参照ポリシーからの乖離を制御する強化学習フェーズである。Proximal Policy Optimizationアルゴリズムでクリッピングベースの方策更新を行い、KLダイバージェンスペナルティで出力の安定性を維持する。

RLHF PPO訓練（Proximal Policy Optimization）とは？（アールエルエイチエフピーピーオークンレン）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

PPOアルゴリズムの詳細

クリッピング目的関数: 方策比率 r_t = π_θ(a_t|s_t) / π_old(a_t|s_t) を [1-ε, 1+ε] にクリップ。ε=0.2が標準。大きすぎる更新を防ぎ学習を安定化する
GAE（Generalized Advantage Estimation）: λ=0.95でアドバンテージを推定。バイアスとバリアンスのトレードオフを制御
バリューヘッド: LLMに価値関数ヘッド（線形層）を追加し、状態価値V(s)を推定。アドバンテージ計算に使用
ミニバッチ更新: 1エポックあたり4〜8ミニバッチで複数回更新。InstructGPTでは各バッチ256プロンプト
学習率: 通常1e-6〜5e-6。SFT時の1/10程度に設定。コサインスケジューラーまたはウォームアップ後リニア減衰

パラメータ	典型値	説明	感度
KL係数β	0.01〜0.2	参照ポリシーからの乖離ペナルティ	非常に高い
クリップε	0.2	方策更新のクリッピング範囲	中程度
GAE λ	0.95	アドバンテージ推定の減衰率