LLM報酬モデリング（Reward Modeling）とは？（エルエルエムホウシュウモデリング）わかりやすく解説

LLMの出力品質を数値スコアで評価する報酬モデル（Reward Model）を訓練し、RLHF・DPO等の選好最適化パイプラインで活用する技術体系。人間のフィードバックを機械学習可能な信号へ変換する中核コンポーネントである。

LLM報酬モデリング（Reward Modeling）とは？（エルエルエムホウシュウモデリング）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

報酬モデルの基本アーキテクチャ

報酬モデルは一般的に、事前学習済み LLM をバックボーンとし、最終層にスカラー値を出力する**報酬ヘッド（Reward Head）**を追加した構造を持つ。

バックボーン選択: 訓練対象の LLM と同程度か、やや小さいモデルを使用（例: Llama 3.1 70B の RM には Llama 3.1 8B を使用）
報酬ヘッド: 最終隠れ層の出力を線形層でスカラー値にマッピング（hidden_dim → 1）
入力形式: [prompt, response] のペアを連結してトークン化し、最終トークンの隠れ状態から報酬スコアを算出
出力: 応答の品質を示す実数値スコア（通常 -10 〜 +10 の範囲に正規化）
損失関数: Bradley-Terry モデルに基づくペアワイズランキング損失が標準

モデル	パラメータ数	ベースモデル	用途	特徴
OpenAI RM	非公開（推定6B）	GPT-4ベース	InstructGPT/ChatGPT	ペアワイズ比較 + 6段階スケール
Anthropic RM	非公開