RLHF(Reinforcement Learning from Human Feedback)は、人間の嗜好データを用いてLLMの出力品質を改善する強化学習手法である。OpenAIのInstructGPT論文(2022年)で体系化され、SFT(教師ありファインチューニング)→RM(報酬モデル学習)→PPO(強化学習最適化)の3段階パイプラインが標準となった。
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデル(LLM)の出力を人間の好みに合わせて最適化する強化学習手法である。2022年にOpenAIが発表したInstructGPT論文で3段階パイプライン(SFT→RM→PPO)として体系化され、ChatGPTの品質を支える中核技術となった。
RLHFは「人間が望む応答」を数値化し、モデルの方策(ポリシー)を強化学習で最適化する枠組みである。従来の教師あり学習(SFT)だけでは「正解テキスト」の定義が曖昧な自由形式タスク(対話・要約・創作)で限界があった。InstructGPT(Ouyang et al., 2022)はパラメータ数1.3BのSFTモデルが175BのGPT-3を人間評価で上回ることを示し、RLHFの有効性を実証した。2023年以降、Llama 2(Meta)、Claude(Anthropic)、Gemini(Google DeepMind)など主要LLMがRLHFまたはその派生手法を採用している。
RLHFは以下の3段階で構成される:
| モデル/手法 | 開発元 | RM規模 | 比較データ量 | RL手法 | 公開年 |
|---|---|---|---|---|---|
| InstructGPT | OpenAI | 6B | 33K ペア | PPO | 2022 |
| Llama 2-Chat | Meta | 70B | 100万+ ペア | Rejection Sampling + PPO |
| 2023 |
| Claude 2 | Anthropic | 非公開 | 非公開 | RLHF + Constitutional AI | 2023 |
| Gemini | Google DeepMind | 非公開 | 非公開 | RLHF系 | 2023 |
| GPT-4 | OpenAI | 非公開 | 非公開 | RLHF(詳細非公開) | 2023 |
RLHFの強化学習フェーズでは複数のアルゴリズムが使い分けられる:
Q1: RLHFとDPOはどちらを使うべきか? A: 2025〜2026年時点ではDPOが主流化しつつある。PPO-RLHFは理論的に最も一般的だが実装・チューニング難易度が高い。計算資源が限られる場合やデータ規模が中小(10万件以下)ならDPOが実用的。超大規模モデル(100B+)では依然としてPPO-RLHFが採用されるケースもある。
Q2: RLHFのアノテーションデータはどのくらい必要か? A: InstructGPTは約33,000ペアで実用水準を達成した。Llama 2は100万件以上を使用してさらに品質を向上させた。一般的には最低5,000〜10,000ペアから効果が見え始め、10万件以上で安定した品質改善が期待できる。ドメイン特化(医療・法律等)では少数でも高品質なアノテーションが重要。
Q3: オープンソースでRLHFを実装できるツールは? A: TRL(Transformer Reinforcement Learning、Hugging Face)がデファクト標準で、PPO・DPO・KTOを統一APIで提供する。DeepSpeed-Chat(Microsoft)はZeRO最適化との統合が強み。OpenRLHF(2024年公開)は分散学習に特化。AlignBot(2025年)はローコードでRLHFパイプラインを構築できる。
Q4: RLHFなしでアラインメントは達成できるか? A: Constitutional AI(Anthropic)はRLAIF(AI Feedback)で人間ラベルを大幅削減した。Self-Play Fine-Tuning(SPIN、2024年)はモデル自身の出力を使って反復改善する。Instruction-Following Evaluation(IFEval)のような自動評価ベンチマークでフィードバックを代替する研究も進んでいる。完全に人間を排除するのは困難だが、必要量を10分の1以下に削減する手法は実用段階にある。