RLHF Reward Modelとは？（アールエルエイチエフリワードモデル）わかりやすく解説

RLHF（人間フィードバックによる強化学習）において、人間の選好を数値スコアとして近似する補助モデル。LLMの出力品質を自動評価し、方策最適化の報酬信号として機能する。

RLHF Reward Modelとは？（アールエルエイチエフリワードモデル）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

報酬モデルの学習プロセス

報酬モデルは通常、LLM本体と同等またはやや小型のTransformerベースモデルから構築される。最終層の出力トークンに線形ヘッドを追加し、スカラー値（報酬スコア）を出力する構成が標準的である。

学習の損失関数はBradley-Terryモデルに基づく：

L = -log(σ(r(x, y_w) - r(x, y_l)))

ここで r(x, y) はプロンプト x に対する応答 y の報酬スコア、y_w は選好された応答、y_l は非選好応答、σ はシグモイド関数である。

強化学習においてLLM本体（方策モデル）が報酬モデルの弱点を突いて高スコアを獲得するが、実際には品質が低い応答を生成する現象を「Reward Hacking（報酬ハッキング）」と呼ぶ。

典型的な症状：

対策としてKLダイバージェンスペナルティ（SFTモデルからの逸脱を制限）、PPOのクリッピング、報酬モデルのアンサンブル化などが用いられる。

近年、報酬モデルを明示的に学習せず直接選好最適化を行う手法が台頭している：

DPO（Direct Preference Optimization）: 報酬モデルを暗黙的に含む損失関数で直接最適化。学習パイプラインが大幅に簡素化される
KTO（Kahneman-Tversky Optimization）: ペア比較ではなく単一応答の良し悪し判定で学習可能
IPO（Identity Preference Optimization）: DPOの過適合問題を正則化で緩和

これらの手法は報酬モデルの学習コストとReward Hacking問題を回避できる一方、大規模モデルではRLHF+報酬モデルの方が高い性能を示す場合もあり、用途に応じた選択が求められる。

A1: 必ずしも同じサイズである必要はありません。実務上は本体の50-100%程度のパラメータ数が一般的です。小さすぎると人間の選好を正確に近似できず、大きすぎると学習・推論コストが膨大になります。InstructGPTでは6Bパラメータの報酬モデルを175Bの本体に対して使用しました。

A2: 一般的に数万〜数十万件の比較ペアが必要とされます。InstructGPTでは約33,000件の比較データを使用しました。データ品質はデータ量以上に重要であり、アノテーター間の一致率（Inter-annotator agreement）が低いデータは報酬モデルの精度を著しく低下させます。

A3: 実用上は定期的な再学習が推奨されます。LLM本体が強化学習で更新されるにつれ、出力分布が変化し、報酬モデルの評価精度が低下する「分布シフト」が発生します。また、社会的な価値観の変化に対応するためにも、人間フィードバックデータの継続的な収集と報酬モデルの更新が必要です。