RLHF人間フィードバック収集とは？（アールエルエイチエフニンゲンフィードバックシュウシュウ）わかりやすく解説

RLHF人間フィードバック収集は、LLMの応答品質を評価するためにアノテーターがペア比較または絶対評価で嗜好ラベルを付与するプロセスである。Scale AI・Surge AI等のプラットフォームで実施され、データ品質がRLHFの成否を決定する最重要要素となる。

RLHF人間フィードバック収集とは？（アールエルエイチエフニンゲンフィードバックシュウシュウ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

アノテーション設計の要素

プロンプト分布: 対話・要約・翻訳・コーディング・推論など多様なタスクをカバー。InstructGPTは有害コンテンツ回避のプロンプトも意図的に含めた
応答生成: 同一プロンプトから温度0.7〜1.0で4〜8個の応答を生成し、ペアを構成。多様性確保のためTop-p サンプリングを使用
評価基準: 有用性（Helpfulness）・正確性（Correctness）・無害性（Harmlessness）の3軸が標準。Anthropic はさらに「正直さ（Honesty）」を追加
タイブレーク: 甲乙つけがたい場合の「引き分け」ラベルの扱い。InstructGPTは引き分けを許容し約20%が引き分け判定
ペア構成戦略: ランダムペアよりも「RMスコアが近い応答ペア」を優先的にアノテーションするActive Learningが効率的

項目	InstructGPT (2022)	Llama 2 (2023)	業界標準 (2025)
アノテーター数	40人	非公開（数百人規模）	50〜500人
選抜率	面接 + テスト	多段階スクリーニング	テスト合格率20〜40%
IAA (Inter-annotator Agreement)	~73%	~76%