PPO（Proximal Policy Optimization）とは？（ピーピーオー）わかりやすく解説

RLHFで最も広く使われる方策勾配型強化学習アルゴリズム。クリッピングによる信頼領域制約で学習の安定性を確保しつつ、効率的な方策更新を実現する。

PPO（Proximal Policy Optimization）とは？（ピーピーオー）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

PPOの核心：クリッピング目的関数

PPOの最大の特徴は、方策比率（probability ratio）をクリッピングすることで、1回の更新での方策変化量を制限する点にある。

目的関数は以下の形式をとる：

L_CLIP(θ) = E[min(r_t(θ) × A_t, clip(r_t(θ), 1-ε, 1+ε) × A_t)]

ここで r_t(θ) は新旧方策の確率比、A_t はアドバンテージ推定値、ε はクリッピング範囲（典型値 0.2）である。

ゲームやロボティクスでのPPOと異なり、LLM訓練でのPPOには固有の課題がある：

KLペナルティ: SFTモデル（参照方策）からの乖離を防ぐため、報酬にKLダイバージェンス項を加算する。これにより、報酬ハッキングや言語能力の劣化（alignment tax）を抑制する。

生成長の可変性: テキスト生成は可変長であり、トークンレベルの報酬割り当てが必要。通常は系列末尾に一括報酬を与え、GAE（Generalized Advantage Estimation）で各トークンのアドバンテージを逆伝播する。

メモリ要件: 方策モデル・参照モデル・報酬モデル・価値関数の4つのモデルを同時にGPUメモリに保持する必要がある。

PPO訓練時のハイパーパラメータ調整は経験則に依存する部分が大きい。以下は実務上の知見：

A: TRPOは共役勾配法による二次最適化が必要で実装が複雑かつ計算コストが高い。PPOはクリッピングという単純な機構で近似的に同等の制約を実現し、SGDベースの標準的な最適化パイプラインに組み込める点が決定的な利点である。

A: LLMのRLHF訓練では ε=0.2 が広く使われる出発点である。小さすぎると学習が遅く、大きすぎると方策が不安定に振れる。InstructGPTでは ε=0.2 が採用された。

A: DeepSeek-V2/V3やQwen2.5ではGRPOが採用されメモリ効率の優位性が実証されたが、OpenAIやAnthropicの最新モデルはPPO系を維持しており、性能面でPPOが依然有利な設定も報告されている。