LLMの出力を人間の好みに合わせて最適化する学習手法。報酬モデルと方策最適化を組み合わせ、有害出力の抑制や指示追従性の向上を実現する。
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデル(LLM)の出力品質を人間の評価基準に沿って改善するための学習パイプラインである。2022年のChatGPT登場以降、事実上すべての商用LLMが採用する標準的なアライメント手法となった。
RLHFは以下の3段階で構成される:
| 段階 | 内容 | 目的 |
|---|---|---|
| Stage 1: SFT | 教師ありファインチューニング | 指示追従の基本能力を獲得 |
| Stage 2: RM | 報酬モデル学習 | 人間の好みをスコア化 |
| Stage 3: RL | 強化学習(PPO等) | 報酬最大化で方策を最適化 |
Stage 1では人手でキュレーションした高品質な指示-応答ペアでSFTを実施する。Stage 2では同一プロンプトに対する複数応答を人間がランキングし、その選好データからBradley-Terryモデル等で報酬モデルを訓練する。Stage 3ではPPO(Proximal Policy Optimization)等の方策勾配法で、報酬モデルのスコアを最大化しつつKLダイバージェンス制約でSFTモデルからの過度な乖離を防ぐ。
報酬モデルは人間のアノテータが付けた選好ラベルを学習する。典型的には対比較(pairwise comparison)形式で、応答AとBのどちらが良いかを判定する。
主な課題:
InstructGPT(2022)の論文では、アノテータ間一致率は約73%と報告されており、人間評価自体にノイズが含まれる点が根本的な制約である。
| 手法 | 報酬モデル | RL最適化 | 代表例 |
|---|---|---|---|
| RLHF | 必要 | PPO | InstructGPT, ChatGPT |
| DPO | 不要 | 不要(暗黙的) | Zephyr, Tülu 2 |
| KTO | 不要 | 不要 | Kahneman-Tversky Optimization |
| RLAIF | AI生成 | PPO | Constitutional AI |
DPO(Direct Preference Optimization)はRLHFの報酬モデル訓練とRL最適化を単一の損失関数に統合し、実装の複雑さを大幅に削減した。一方、RLHFはオンライン学習が可能なため、反復的な改善ループに適している。
RLHFパイプラインの構築には以下のフレームワークが広く使われる:
GPU要件はモデルサイズに比例し、7Bモデルでも報酬モデル+方策モデル+参照モデルで最低3つのモデルを同時にメモリに保持する必要がある。A100 80GB×4枚が実用的な最小構成となる。
A: SFTは正解を模倣する「教師あり」学習であり、「何が良い応答か」の相対的な判断を学習できない。RLHFは人間の暗黙的な好みを報酬としてモデルに伝達し、有害性の低減や長文品質の向上といったSFTでは困難な改善を実現する。
A: InstructGPTの報告では、175Bモデルに対するRLHF訓練で約800GPU時間(A100換算)。7B-13Bクラスでは数十〜数百GPU時間が目安だが、報酬モデル訓練用のアノテーションコスト(数万〜数十万件の選好データ)が支配的になることが多い。
A: DPOやKTOなどの簡易手法が台頭しているが、2026年時点でOpenAI・Anthropic・Google DeepMindの最先端モデルはいずれもRLHF系パイプラインを採用している。特にオンライン反復改善やマルチターン対話品質ではRLHFの優位性が報告されている。