RLHF（人間のフィードバックによる強化学習）とは？（アールエルエイチエフ）わかりやすく解説

Reinforcement Learning from Human Feedbackの略。人間の評価者がモデル出力を比較ランク付けし、その選好データで報酬モデルを学習、さらにPPO等の強化学習でLLMを最適化する手法。ChatGPTの成功を支えた中核技術。

RLHF（人間のフィードバックによる強化学習）とは？（アールエルエイチエフ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

RLHFの3段階パイプライン

RLHFは以下の3段階で構成される。

Stage 1（SFT）: 高品質な指示-応答ペアでモデルを教師あり微調整する。InstructGPTでは約13,000件の人手作成データを使用。

Stage 2（報酬モデル学習）: 同一プロンプトに対するモデルの複数出力を人間評価者が「AよりBが好ましい」とランク付けし、その選好データでBradley-Terryモデルなどに基づく報酬モデルを学習する。InstructGPTでは約33,000件の比較データを収集した。

Stage 3（PPO最適化）: 報酬モデルをスカラー報酬として、Proximal Policy Optimization（PPO）でSFTモデルを強化学習する。KLダイバージェンスペナルティで元モデルから過度に乖離しないよう制約をかける。

RLHFはChatGPTの爆発的成功を支え、「事前学習だけでは不十分」「人間のフィードバックが品質の鍵」という認識をAI業界に確立した。しかし複数の限界も明らかになっている。

RLHFの限界を克服するために多くの後継手法が提案されている。

DPOはRLHFのStage 2-3を1段階に統合し、報酬モデル学習とPPO最適化を不要にした画期的な手法である。2024年以降、多くのオープンソースモデルがRLHFからDPOに移行している。

RLAIF（RL from AI Feedback）は人間の代わりにAIモデルが評価を行う手法である。Google DeepMindが提唱し、Anthropic Constitutional AIが代表的な実装である。人間評価のコスト問題を解決するが、AIの評価バイアスが新たな課題となる。

OpenAIは具体的な手法を公開していないが、GPT-4以降もRLHFベースのアラインメントを継続していると推測されている。ただし人間評価者の規模・報酬モデルの構成・PPOの詳細は非公開である。

Hugging FaceのTRL（Transformer Reinforcement Learning）ライブラリを使えば、小規模なRLHFパイプラインを構築可能である。ただしStage 2の人間比較データ収集がボトルネックとなるため、個人規模ではDPOの方が実用的である。