RLHF人間フィードバック収集は、LLMの応答品質を評価するためにアノテーターがペア比較または絶対評価で嗜好ラベルを付与するプロセスである。Scale AI・Surge AI等のプラットフォームで実施され、データ品質がRLHFの成否を決定する最重要要素となる。
RLHF人間フィードバック収集は、LLMが生成した応答を人間が評価・ランキングし、報酬モデルの訓練データを作成するプロセスである。RLHFパイプラインの品質は「人間フィードバックの質と量」に最も強く依存するため、アノテーション設計は研究・実務の双方で最重要テーマとなっている。
人間フィードバックの収集方法は大きく2つに分類される。ペア比較(Pairwise Comparison)は同一プロンプトに対する2つの応答のうち「どちらが良いか」を選ぶ形式で、InstructGPT・Llama 2が採用した。絶対評価(Likert Scale)は各応答に1〜5点などのスコアを付ける形式だが、アノテーター間のスケール認識の違いにより一致率が低下しやすい。2025年時点ではペア比較が主流である。
| 項目 | InstructGPT (2022) | Llama 2 (2023) | 業界標準 (2025) |
|---|---|---|---|
| アノテーター数 | 40人 | 非公開(数百人規模) | 50〜500人 |
| 選抜率 | 面接 + テスト | 多段階スクリーニング | テスト合格率20〜40% |
| IAA (Inter-annotator Agreement) | ~73% | ~76% |
| 70〜80% |
| 時給 | $15〜25 | 非公開 | $15〜40 |
| 1ペアあたりコスト | ~$1.50 | 非公開 | $0.50〜5.00 |
| 品質監査 | ゴールドセット + 定期レビュー | ゴールドセット + AI支援 | リアルタイム一致率監視 |
Q1: ペア比較と絶対評価のどちらが優れているか? A: ペア比較が優れている。人間は2つの選択肢の相対比較が得意で、Inter-annotator agreementもペア比較の方が10〜15ポイント高い。絶対評価は個人の基準ばらつきが大きく、スコアの校正が困難。ただし、多次元評価(有用性・正確性・安全性を個別スコアリング)には絶対評価が適する場合もある。
Q2: 最低何件のペア比較データでRLHFは効果があるか? A: 5,000〜10,000ペアで効果が見え始める。InstructGPTは33,000ペアで実用水準を達成した。ドメイン特化(医療・法律等)では少数でも高品質なアノテーションが重要で、1,000ペアの専門家アノテーションが10,000ペアの非専門家アノテーションを上回る事例がある。
Q3: アノテーション品質を上げるコツは? A: 評価基準(ガイドライン)の具体化が最重要。「有用な応答」ではなく「質問への直接回答 > 関連情報の提供 > 一般的アドバイス」のように明確な優先順位を定義する。また、アノテーターへの定期的なフィードバック(誤判定例の共有)とキャリブレーションセッション(チーム全体で同一ペアを評価・議論)が効果的。