RLHF報酬モデル（Reward Model）とは？（アールエルエイチエフホウシュウモデル）わかりやすく解説

Q: RLHF報酬モデル（Reward Model）とは？

RLHF報酬モデルは、人間のペア比較嗜好データから学習し、LLMの応答品質をスカラー値で数値化するニューラルネットワークである。Bradley-Terryモデルに基づくランキング損失で訓練され、PPO強化学習フェーズの報酬信号として機能する。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

RLHF報酬モデル（Reward Model）とは？（アールエルエイチエフホウシュウモデル）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

Bradley-Terryモデルと損失関数

報酬モデルの学習にはBradley-Terryモデルが標準的に使われる。応答yのスコアをr(y)とすると、応答y_wが応答y_lより好まれる確率は：

P(y_w > y_l) = σ(r(y_w) - r(y_l))

ここでσはシグモイド関数。損失関数は負の対数尤度：

L = -E[log σ(r(y_w) - r(y_l))]

この定式化はEloレーティングシステムと数学的に等価であり、チェスや対戦ゲームのランキングと同じ理論基盤を持つ。

ペアワイズ比較: 絶対スコアではなく相対順序を学習するため、アノテーターの主観的基準のばらつきに頑健
マージン損失: 一部の実装（Llama 2）ではマージンm を追加し L = -E[log σ(r(y_w) - r(y_l) - m)] とする。mは人間の確信度に基づく
リストワイズ拡張: 2つではなくK個の応答をランキングする拡張（Plackett-Luceモデル）も研究されている

報酬モデルのアーキテクチャ

要素	InstructGPT (2022)	Llama 2 (2023)	最新手法 (2025)
ベースモデル	GPT-3 6B	Llama 2 70B	対象LLMと同規模
出力ヘッド	線形層→スカラー	線形層→スカラー	多次元報酬ヘッド
訓練データ	33K ペア	100万+ ペア	50万〜200万ペア
損失関数	Bradley-Terry	BT + マージン	BT + 多目的
正則化	ドロップアウト	ドロップアウト + 重み減衰	LoRA効率化

報酬モデルの品質評価

報酬モデルの精度はRLHF全体の品質を左右する最重要要素である：

ペア比較精度（Pairwise Accuracy）: テストセットのペア比較で人間と一致する割合。InstructGPTでは約72%、Llama 2では約76%を達成
ランキング相関（Kendall's τ）: 複数応答のランキング順序が人間評価と一致する度合い。0.5以上で実用水準
校正（Calibration）: スコア差の大きさが人間の確信度と比例するか。過信・過小評価を測定
分布外汎化: 訓練分布外のプロンプト・応答に対するスコアの信頼性。ドメイン移行時に精度が大幅低下する事例が報告されている

報酬ハッキングとその対策

報酬モデルの最大の課題は「報酬ハッキング（Reward Hacking）」である：

症状: 過度な長文化、冗長な箇条書き、過剰に丁寧な言い回し、同じ情報の繰り返しなど。RMスコアは高いが人間評価は低い応答
原因: RMは有限データから学習した近似関数であり、方策がRM分布外に移動すると精度が破綻する
対策1 — KLペナルティ: PPO訓練でSFTモデルとのKLダイバージェンスをペナルティに加え、過度な最適化を抑制
対策2 — 報酬アンサンブル: 複数の報酬モデルのスコアを平均化し、個別RMの偏りを緩和。Cohere（2024年）が実装
対策3 — 反復RM更新: PPO訓練中にRMを定期的に再学習し、分布シフトに追従。計算コストは増大するが効果的
対策4 — 制約付き最適化: 報酬最大化に加え、長さ制約・多様性制約をラグランジュ乗数法で導入

よくある質問（FAQ）

Q1: 報酬モデルのサイズは対象LLMと同じにすべきか？ A: 必ずしも同一サイズである必要はない。InstructGPTでは175Bモデルに対し6BのRMを使用して成功した。ただしLlama 2の研究では、RM規模が大きいほどペア比較精度が向上し、70BのRMが最も高品質な結果を示した。コストとのトレードオフで、対象モデルの1/4〜同規模が実用的な範囲。

Q2: ペア比較データはどう収集するのが効率的か？ A: Active Learning（モデルが不確実な応答ペアを優先的にアノテーション）で効率を2〜3倍改善できる。また、AI-Assisted Annotation（GPT-4等でフィルタリング後に人間が最終判断）でコストを50%削減した事例（Scale AI, 2024年）がある。重要なのは多様なプロンプト分布を確保すること。

Q3: 報酬モデルなしでRLHFは実装できるか？ A: DPO（Direct Preference Optimization）は暗黙的な報酬モデルをポリシー自体に内包し、明示的なRM訓練を不要にする。KTO（Kahneman-Tversky Optimization）も同様。これらは「RM-free RLHF」とも呼ばれ、メモリ効率・実装容易性で優位性がある。

まとめ

報酬モデルはRLHFの中核で、人間の嗜好をスカラースコアに変換する
Bradley-Terryモデルに基づくペアワイズ損失関数で訓練
報酬ハッキングが最大の課題で、KLペナルティ・アンサンブル・反復更新で対策
DPO等のRM-free手法が台頭し、明示的RMの必要性は減少傾向
RM精度（ペア比較一致率70%+）がRLHF全体の品質を決定する

メニュー

RLHF報酬モデル（Reward Model）（アールエルエイチエフホウシュウモデル）

メニュー

RLHF報酬モデル（Reward Model）（アールエルエイチエフホウシュウモデル）

この用語に関連するコンテンツ

概要

Bradley-Terryモデルと損失関数

報酬モデルのアーキテクチャ

報酬モデルの品質評価

報酬ハッキングとその対策

よくある質問（FAQ）

まとめ

関連用語