Simple Preference Optimization（SimPO）とは？（シンプルプリファレンスオプティマイゼーション）わかりやすく解説

Q: Simple Preference Optimization（SimPO）とは？

SimPO（Simple Preference Optimization）は、リファレンスモデルを不要にしつつ、応答の平均対数確率を報酬として使用することでDPOの長さバイアスを解消した手法で、2024年にVirginia大学が提案した

主な特徴・仕組み

リファレンスモデル不要: DPO/IPOと異なりリファレンスポリシーが完全に不要

長さバイアス解消: 平均対数確率を使用することで応答長に依存しない報酬を実現

マージン項 γ: 選好ペア間の最低報酬差を保証し、学習を安定化

計算効率: リファレンスモデルの順伝播が不要で、DPOの約60%のFLOPsで学習可能

メモリ効率: ORPO同様にリファレンスモデル分のGPUメモリが不要

高い最終性能: ArenaHard、AlpacaEval 2.0 で DPO を3-7ポイント上回る結果

シンプルな実装: 損失関数がDPOより簡潔で、ハイパーパラメータは β と γ の2つのみ

2026年のトレンド: Llama 3系やMistral系の後続チューニングで採用事例が増加中

手法	AlpacaEval 2.0 LC(%)	ArenaHard(%)	MT-Bench	リファレンス
DPO	33.5	26.8	7.62	必要
IPO	31.2	25.1	7.49	必要
KTO	32.8	26.2	7.55	必要
ORPO	34.1	27.3	7.61	不要
SimPO	36.8	33.8	7.71	不要

手法

AlpacaEval 2.0 LC(%)

ArenaHard(%)

MT-Bench

リファレンス

DPO

33.5

26.8

7.62

必要

IPO

31.2

25.1

7.49

必要

KTO

32.8

26.2

7.55

必要

ORPO

34.1

27.3

7.61

不要

SimPO

36.8

33.8

7.71

不要

長さバイアス問題の詳細

DPOで学習したモデルは選好データ中の長い応答を選好する傾向がある。これは暗黙の報酬 r(y) = log π_θ(y|x) - log π_ref(y|x) がトークン数の合計に比例するためである。例えば、200トークンの応答は100トークンの応答に比べて2倍のスコアを持ちやすい。SimPOでは平均化 (1/|y|) を導入することでこの問題を構造的に排除している。2025-2026年の実験では、SimPOで学習したモデルの平均応答長がDPOモデルの約70%に短縮されつつ、品質スコアは向上するという結果が報告されている。

実装と実用

SimPOは TRL ライブラリで CPOTrainer に統合されており、loss_type='simpo' と cpo_alpha パラメータで利用可能。主要ハイパーパラメータの推奨設定は β = 2.0-2.5、γ = 0.5-1.5、学習率 = 1e-6〜5e-7 である。8Bモデルの場合、A100 80GB×4基で約1.5-3時間の学習時間が目安。

よくある質問（FAQ）

Q1: SimPOはDPOの完全な上位互換ですか？ A: ベンチマーク上はSimPOが優位だが、特定のドメイン（コード生成など）ではDPOが優れるケースもある。リファレンスモデル不要でメモリ効率が高い点はSimPOの明確な利点。

Q2: SimPOの γ（マージン）パラメータはどう調整しますか？ A: γ = 1.0 を出発点として、0.5-1.5の範囲で探索する。γ が大きすぎると学習が不安定になり、小さすぎると選好の分離が不十分になる。

Q3: SimPOとORPOの違いは何ですか？ A: 両方ともリファレンスモデル不要だが、ORPOはSFTと選好最適化を統合する（1ステップ）のに対し、SimPOはSFT後に適用する（2ステップ）。SimPOは長さバイアス解消に特化したマージン付き平均報酬を使用する点が独自。

まとめ

SimPOはリファレンスフリーかつ長さバイアスフリーの選好最適化手法

平均対数確率を報酬に使用しマージン項で安定化する簡潔な設計

AlpacaEval 2.0やArenaHardでDPOを大幅に上回る性能を達成

2026年時点で最新の選好最適化手法として急速に普及中

メニュー

Simple Preference Optimization（SimPO）（シンプルプリファレンスオプティマイゼーション）

この用語に関連するコンテンツ

メニュー

Simple Preference Optimization（SimPO）（シンプルプリファレンスオプティマイゼーション）

この用語に関連するコンテンツ

概要

主な特徴・仕組み

ベンチマーク比較

長さバイアス問題の詳細

実装と実用

よくある質問（FAQ）

まとめ

関連用語