RLHF報酬モデルは、人間のペア比較嗜好データから学習し、LLMの応答品質をスカラー値で数値化するニューラルネットワークである。Bradley-Terryモデルに基づくランキング損失で訓練され、PPO強化学習フェーズの報酬信号として機能する。
RLHF報酬モデル(Reward Model, RM)は、「この応答はどのくらい良いか」を数値スコアで出力するニューラルネットワークである。人間がペア比較で付けた嗜好ラベルから学習し、PPO訓練フェーズで強化学習の報酬信号として使われる。
報酬モデルはRLHFパイプラインのStage 2に位置し、人間の主観的評価を数学的に定式化する役割を担う。InstructGPT(OpenAI, 2022)では6Bパラメータの報酬モデルを約33,000件のペア比較データで訓練した。入力はプロンプト+応答のペアで、出力は単一のスカラースコア(実数値)。2つの応答A,Bについて人間が「Aが良い」と判断した場合、RM(A) > RM(B) となるように学習する。
報酬モデルの学習にはBradley-Terryモデルが標準的に使われる。応答yのスコアをr(y)とすると、応答y_wが応答y_lより好まれる確率は:
P(y_w > y_l) = σ(r(y_w) - r(y_l))
ここでσはシグモイド関数。損失関数は負の対数尤度:
L = -E[log σ(r(y_w) - r(y_l))]
この定式化はEloレーティングシステムと数学的に等価であり、チェスや対戦ゲームのランキングと同じ理論基盤を持つ。
| 要素 | InstructGPT (2022) | Llama 2 (2023) | 最新手法 (2025) |
|---|---|---|---|
| ベースモデル | GPT-3 6B | Llama 2 70B | 対象LLMと同規模 |
| 出力ヘッド | 線形層→スカラー | 線形層→スカラー | 多次元報酬ヘッド |
| 訓練データ | 33K ペア | 100万+ ペア | 50万〜200万ペア |
| 損失関数 | Bradley-Terry | BT + マージン | BT + 多目的 |
| 正則化 | ドロップアウト | ドロップアウト + 重み減衰 | LoRA効率化 |
報酬モデルの精度はRLHF全体の品質を左右する最重要要素である:
報酬モデルの最大の課題は「報酬ハッキング(Reward Hacking)」である:
Q1: 報酬モデルのサイズは対象LLMと同じにすべきか? A: 必ずしも同一サイズである必要はない。InstructGPTでは175Bモデルに対し6BのRMを使用して成功した。ただしLlama 2の研究では、RM規模が大きいほどペア比較精度が向上し、70BのRMが最も高品質な結果を示した。コストとのトレードオフで、対象モデルの1/4〜同規模が実用的な範囲。
Q2: ペア比較データはどう収集するのが効率的か? A: Active Learning(モデルが不確実な応答ペアを優先的にアノテーション)で効率を2〜3倍改善できる。また、AI-Assisted Annotation(GPT-4等でフィルタリング後に人間が最終判断)でコストを50%削減した事例(Scale AI, 2024年)がある。重要なのは多様なプロンプト分布を確保すること。
Q3: 報酬モデルなしでRLHFは実装できるか? A: DPO(Direct Preference Optimization)は暗黙的な報酬モデルをポリシー自体に内包し、明示的なRM訓練を不要にする。KTO(Kahneman-Tversky Optimization)も同様。これらは「RM-free RLHF」とも呼ばれ、メモリ効率・実装容易性で優位性がある。