Reinforcement Learning from Human Feedbackの略。人間の評価者がモデル出力を比較ランク付けし、その選好データで報酬モデルを学習、さらにPPO等の強化学習でLLMを最適化する手法。ChatGPTの成功を支えた中核技術。
RLHF(Reinforcement Learning from Human Feedback)とは、人間の評価者による選好フィードバックを活用して、大規模言語モデル(LLM)の出力を人間の意図や価値観に合わせて最適化する手法である。OpenAIがInstructGPT(2022年)およびChatGPT(2022年11月)で採用し、LLMの実用化を飛躍的に加速させた。
RLHFは以下の3段階で構成される。
| 段階 | プロセス | 入力 | 出力 |
|---|---|---|---|
| Stage 1: SFT | 教師あり微調整 | 高品質プロンプト+応答ペア | SFTモデル |
| Stage 2: RM | 報酬モデル学習 | 人間による出力ペア比較データ | 報酬モデル |
| Stage 3: PPO | 強化学習最適化 | SFTモデル+報酬モデル | 最終モデル |
Stage 1(SFT): 高品質な指示-応答ペアでモデルを教師あり微調整する。InstructGPTでは約13,000件の人手作成データを使用。
Stage 2(報酬モデル学習): 同一プロンプトに対するモデルの複数出力を人間評価者が「AよりBが好ましい」とランク付けし、その選好データでBradley-Terryモデルなどに基づく報酬モデルを学習する。InstructGPTでは約33,000件の比較データを収集した。
Stage 3(PPO最適化): 報酬モデルをスカラー報酬として、Proximal Policy Optimization(PPO)でSFTモデルを強化学習する。KLダイバージェンスペナルティで元モデルから過度に乖離しないよう制約をかける。
RLHFはChatGPTの爆発的成功を支え、「事前学習だけでは不十分」「人間のフィードバックが品質の鍵」という認識をAI業界に確立した。しかし複数の限界も明らかになっている。
RLHFの限界を克服するために多くの後継手法が提案されている。
| 手法 | 提案者 | 特徴 |
|---|---|---|
| DPO | Stanford (2023) | 報酬モデル不要、直接選好最適化 |
| KTO | Ethayarajh et al. (2024) | ペア比較不要、good/bad二値で学習 |
| IPO | Azar et al. (2023) | DPOの過学習問題を改善 |
| ORPO | Hong et al. (2024) | SFTとアラインメントを統合 |
| Constitutional AI | Anthropic (2022) | AI自身が原則に基づき自己評価 |
DPOはRLHFのStage 2-3を1段階に統合し、報酬モデル学習とPPO最適化を不要にした画期的な手法である。2024年以降、多くのオープンソースモデルがRLHFからDPOに移行している。
RLAIF(RL from AI Feedback)は人間の代わりにAIモデルが評価を行う手法である。Google DeepMindが提唱し、Anthropic Constitutional AIが代表的な実装である。人間評価のコスト問題を解決するが、AIの評価バイアスが新たな課題となる。
OpenAIは具体的な手法を公開していないが、GPT-4以降もRLHFベースのアラインメントを継続していると推測されている。ただし人間評価者の規模・報酬モデルの構成・PPOの詳細は非公開である。
Hugging FaceのTRL(Transformer Reinforcement Learning)ライブラリを使えば、小規模なRLHFパイプラインを構築可能である。ただしStage 2の人間比較データ収集がボトルネックとなるため、個人規模ではDPOの方が実用的である。