RLHF(人間フィードバックによる強化学習)において、人間の選好を数値スコアとして近似する補助モデル。LLMの出力品質を自動評価し、方策最適化の報酬信号として機能する。
RLHF Reward Model(報酬モデル)とは、人間のフィードバックに基づく強化学習(RLHF)パイプラインにおいて、モデル出力の品質を数値スコアとして評価する専用モデルである。人間のアノテーターが「どちらの回答が良いか」を判定した比較データから学習され、LLM本体の最適化における報酬信号を提供する。
報酬モデルの精度がアライメント全体の品質を決定するため、RLHFパイプラインにおける最も重要なコンポーネントの一つとされている。
| ステップ | 内容 | 具体例 |
|---|---|---|
| 1. データ収集 | 同一プロンプトに対する複数応答を生成 | 1プロンプトにつき4-8応答を生成 |
| 2. 人間評価 | アノテーターが応答ペアを比較順位付け | 「回答Aは回答Bより良い」のペア判定 |
| 3. モデル学習 | Bradley-Terryモデル等で選好確率を学習 | 比較データからスカラー報酬を予測 |
| 4. 検証 | ホールドアウトデータで精度検証 | 人間の選好との一致率を測定 |
報酬モデルは通常、LLM本体と同等またはやや小型のTransformerベースモデルから構築される。最終層の出力トークンに線形ヘッドを追加し、スカラー値(報酬スコア)を出力する構成が標準的である。
学習の損失関数はBradley-Terryモデルに基づく:
L = -log(σ(r(x, y_w) - r(x, y_l)))
ここで r(x, y) はプロンプト x に対する応答 y の報酬スコア、y_w は選好された応答、y_l は非選好応答、σ はシグモイド関数である。
強化学習においてLLM本体(方策モデル)が報酬モデルの弱点を突いて高スコアを獲得するが、実際には品質が低い応答を生成する現象を「Reward Hacking(報酬ハッキング)」と呼ぶ。
典型的な症状:
対策としてKLダイバージェンスペナルティ(SFTモデルからの逸脱を制限)、PPOのクリッピング、報酬モデルのアンサンブル化などが用いられる。
近年、報酬モデルを明示的に学習せず直接選好最適化を行う手法が台頭している:
これらの手法は報酬モデルの学習コストとReward Hacking問題を回避できる一方、大規模モデルではRLHF+報酬モデルの方が高い性能を示す場合もあり、用途に応じた選択が求められる。
A1: 必ずしも同じサイズである必要はありません。実務上は本体の50-100%程度のパラメータ数が一般的です。小さすぎると人間の選好を正確に近似できず、大きすぎると学習・推論コストが膨大になります。InstructGPTでは6Bパラメータの報酬モデルを175Bの本体に対して使用しました。
A2: 一般的に数万〜数十万件の比較ペアが必要とされます。InstructGPTでは約33,000件の比較データを使用しました。データ品質はデータ量以上に重要であり、アノテーター間の一致率(Inter-annotator agreement)が低いデータは報酬モデルの精度を著しく低下させます。
A3: 実用上は定期的な再学習が推奨されます。LLM本体が強化学習で更新されるにつれ、出力分布が変化し、報酬モデルの評価精度が低下する「分布シフト」が発生します。また、社会的な価値観の変化に対応するためにも、人間フィードバックデータの継続的な収集と報酬モデルの更新が必要です。