IPO(Identity Preference Optimization)は、DPOの理論的欠陥であるオーバーフィッティング問題を修正し、選好確率の正則化を強化した改良手法で、Google DeepMindが2023年に提案した
IPO(Identity Preference Optimization)は、2023年10月にGoogle DeepMindのAzar らが論文「A General Theoretical Paradigm to Understand Learning from Human Feedback」で提案した選好最適化手法である。DPOが持つ理論的な過適合問題を特定し、より頑健な正則化を導入することで改善を図った。
DPOの損失関数は Bradley-Terry モデルの選好確率を直接最適化するが、理論的にはデータへの過適合(deterministic な選好への収束)を許容してしまう問題がある。具体的には、DPO損失を最小化すると、選好された応答の確率を1に、棄却された応答の確率を0に押しやる方向に学習が進む可能性がある。
IPOはこの問題を、選好確率そのものではなく選好確率の「自乗誤差」を最小化する損失関数に変更することで解決する。IPO損失は (log π_θ(y_w|x)/π_ref(y_w|x) - log π_θ(y_l|x)/π_ref(y_l|x) - 1/(2β))^2 という形式を取り、暗黙の報酬差が 1/(2β) に収束するよう正則化される。
| 観点 | DPO | IPO |
|---|---|---|
| 損失関数 | Binary cross-entropy | Squared error |
| 過適合リスク | あり(決定的選好へ収束) | 低減(正則化で制約) |
| β の役割 | KL制約の強さ | 報酬差のターゲット |
| 理論保証 | KL正則化報酬最大化 | Ψ-PO フレームワーク |
| ノイズ耐性 | ラベルノイズに弱い | 比較的頑健 |
| 収束先 | 選好確率 → 0 or 1 | 報酬差 → 1/(2β) |
Google DeepMind の論文では、IMDb 感情分類タスクと TL;DR 要約タスクで DPO より安定した学習曲線と同等以上の最終性能を達成している。2025-2026年時点で、IPO は TRL ライブラリの DPOTrainer で loss_type='ipo' を指定するだけで利用可能であり、研究用途での採用が増えている。商用モデルでの採用報告はDPOほど多くないが、選好データにノイズが多い場合の代替として検討されることが多い。
Q1: IPOはDPOの完全な上位互換ですか? A: 理論的には過適合耐性が向上しているが、クリーンな選好データではDPOとの性能差は小さい。ノイズの多いデータや少量データでIPOの優位性が顕著になる。
Q2: IPOの実装はDPOから大きく変わりますか? A: ほぼ同一。TRL では DPOTrainer の loss_type パラメータを「ipo」に変更するだけで切り替え可能。損失関数が1行異なるのみ。
Q3: Ψ-POフレームワークとは何ですか? A: IPO論文で提案された汎用的な選好最適化フレームワーク。凸関数 Ψ の選択によってDPO、IPO、SLiC等の既存手法を統一的に表現でき、新手法の設計指針を提供する。