Self-Rewarding Language Modelとは？（セルフリワーディングランゲージモデル）わかりやすく解説

Q: Self-Rewarding Language Modelとは？

Meta AI が 2024年に発表した手法で、LLM 自身が報酬モデル（Reward Model）として機能し、自分の応答を自己評価してアライメント学習データを自動生成する「LLM-as-a-Judge + Self-Play」の統合アプローチ。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Self-Rewarding Language Modelとは？（セルフリワーディングランゲージモデル）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

動機と従来手法の限界

RLHF の標準パイプラインでは以下の問題があった：

報酬モデルのボトルネック: 報酬モデルの品質が学習の上限を決定する（Reward Hacking）
分離された学習: ポリシーモデルと報酬モデルが別々に学習されるため、一貫性が担保しにくい
スケーリングの壁: 報酬モデルの改善には追加の人間データが必要

Self-Rewarding LM は「報酬モデルも Self-Play で改善できれば、両方が同時に向上する」という洞察に基づく。

Self-Rewarding のフロー

ステップ	処理内容	入出力
1. 応答生成	モデルが質問に対して N 個の候補応答を生成	質問 → N 応答
2. 自己評価	LLM-as-a-Judge プロンプトで各応答にスコア付与	N 応答 → N スコア
3. ペア構築	高スコア応答 = chosen、低スコア応答 = rejected のペアを構築	(chosen, rejected) ペア
4. DPO 学習	構築したペアで DPO（Direct Preference Optimization）を実行	モデル更新

以下の質問に対する回答を 1-5 のスケールで評価してください。

質問: {question}
回答: {response}

評価基準:
5: 完璧 - 正確、包括的、明確で、質問に完全に答えている
4: 良い - ほぼ正確で有用だが、軽微な改善の余地がある
3: 普通 - 基本的な情報は含むが、深さや正確性に不足がある
2: 不十分 - 重要な誤りまたは大幅な情報不足がある
1: 不適切 - 質問に答えていない、または有害な内容を含む

スコア: [1-5]
理由: [評価の根拠を簡潔に]

指標	ベースライン（SFT）	Self-Rewarding（Iter 1）	Self-Rewarding（Iter 3）
AlpacaEval 2.0 Win Rate	9.8%	15.2%	20.4%
MT-Bench スコア	6.1	6.8	7.5
自己評価の Cohen's κ	-	0.42	0.58
人間評価との相関	-	0.61	0.72

特性	SPIN	Self-Rewarding LM
正解データ	人間の Ground Truth 必須	不要（自己評価のみ）
報酬信号	人間データとの比較	LLM-as-a-Judge スコア
イテレーション効率	高い（明確な勝敗）	中程度（自己評価の精度に依存）
モデル規模	7B でも効果あり	70B 推奨（自己評価の精度に規模が影響）
拡張性	人間データに制約	計算資源のみに依存

メニュー

Self-Rewarding Language Model（セルフリワーディングランゲージモデル）

メニュー

Self-Rewarding Language Model（セルフリワーディングランゲージモデル）

この用語に関連するコンテンツ

Self-Rewarding Language Model とは

動機と従来手法の限界

Self-Rewarding のフロー

自己評価プロンプトの設計

実験結果と性能

SPIN との比較

実装上の注意点

2025-2026年の発展

よくある質問（FAQ）

まとめ

関連用語