Direct Preference Optimization（DPO）とは？（ダイレクトプリファレンスオプティマイゼーション）わかりやすく解説

DPO（Direct Preference Optimization）は、報酬モデルを明示的に学習せずに人間の選好データから直接LLMを最適化する手法で、RLHFの簡略化代替として2023年にStanford大学が提案した

Direct Preference Optimization（DPO）とは？（ダイレクトプリファレンスオプティマイゼーション）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

主な特徴・仕組み

報酬モデル不要: 選好データから直接ポリシーを最適化するため、報酬モデルの学習・推論コストが不要
PPO不要: 強化学習の不安定性（報酬ハッキング、KLダイバージェンス発散）を回避
メモリ効率: PPOでは4モデル（ポリシー・リファレンス・報酬・バリュー）が必要だが、DPOでは2モデル（ポリシー・リファレンス）のみ
計算コスト: A100 80GB×8基で Llama-2-7B のDPO学習は約2-4時間（PPOの約1/3）
β パラメータ: 通常 0.1-0.5 の範囲。低いほど選好データへの適合が強く、高いほどリファレンスポリシーに近づく
データ要件: 選好ペア 10,000-100,000 件が標準。UltraFeedback（63,967ペア）やHH-RLHF（169,352ペア）が代表的データセット
収束安定性: 教師あり学習と同等の安定した勾配降下で最適化可能
理論保証: KL正則化付き報酬最大化問題の最適解と等価であることが証明されている

モデル/プロジェクト	DPO適用対象	データセット	結果
Zephyr-7B-beta	Mistral-7B-v0.1	UltraFeedback 63K	MT-Bench 7.34（GPT-3.5級）
Intel Neural Chat 7B	Mistral-7B	独自選好データ