RLHF（人間フィードバックによる強化学習）とは？（アールエルエイチエフ）わかりやすく解説

Q: RLHF（人間フィードバックによる強化学習）とは？

RLHF（Reinforcement Learning from Human Feedback）は、人間の嗜好データを用いてLLMの出力品質を改善する強化学習手法である。OpenAIのInstructGPT論文（2022年）で体系化され、SFT（教師ありファインチューニング）→RM（報酬モデル学習）→PPO（強化学習最適化）の3段階パイプラインが標準となった。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

RLHF（人間フィードバックによる強化学習）とは？（アールエルエイチエフ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

RLHFの3段階パイプライン

RLHFは以下の3段階で構成される：

Stage 1: SFT（Supervised Fine-Tuning） — 事前学習済みモデルを高品質な指示-応答ペア（通常1万〜10万件）で教師あり微調整する。InstructGPTでは約13,000件のデモンストレーションデータを使用した
Stage 2: RM（Reward Model）学習 — 同一プロンプトに対する2つ以上の応答を人間が「どちらが良いか」比較評価し、そのペア比較データ（InstructGPTでは約33,000件）から報酬関数を学習する
Stage 3: PPO（Proximal Policy Optimization） — 学習した報酬モデルのスコアを報酬信号として、SFTモデルをPPOアルゴリズムで強化学習する。KLペナルティにより参照ポリシー（SFTモデル）からの過度な乖離を抑制する

主要なRLHF実装の比較

モデル/手法	開発元	RM規模	比較データ量	RL手法	公開年
InstructGPT	OpenAI	6B	33K ペア	PPO	2022
Llama 2-Chat	Meta	70B	100万+ ペア	Rejection Sampling + PPO

メニュー

RLHF（人間フィードバックによる強化学習）（アールエルエイチエフ）

メニュー

RLHF（人間フィードバックによる強化学習）（アールエルエイチエフ）

この用語に関連するコンテンツ

概要

RLHFの3段階パイプライン

主要なRLHF実装の比較

RL手法の選択肢と比較

RLHFの課題と限界

よくある質問（FAQ）

まとめ

関連用語