Bradley-Terryモデルとは？（ブラッドリーテリーモデル）わかりやすく解説

Q: Bradley-Terryモデルとは？

報酬モデル訓練で標準的に使用されるペアワイズ比較の確率モデル。各応答の「強さ」パラメータから比較結果の確率を算出し、対数尤度最大化により報酬スコアを学習する。1952年にRA Bradleyと ME Terryが提案した統計モデルをLLM選好最適化に応用したものである。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Bradley-Terryモデルとは？（ブラッドリーテリーモデル）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

数学的定式化

基本モデル

応答 $y_w$（chosen, 勝者）が応答 $y_l$（rejected, 敗者）に選好される確率:

$$P(y_w \succ y_l | x) = \sigma(r(x, y_w) - r(x, y_l))$$

ここで $\sigma$ はシグモイド関数、$r(x, y)$ はプロンプト $x$ に対する応答 $y$ の報酬スコアである。

訓練損失関数

N 個のペアワイズ比較データ $\{(x_i, y_w^i, y_l^i)\}_{i=1}^N$ に対する負の対数尤度:

$$\mathcal{L}{BT} = -\frac{1}{N} \sum{i=1}^N \log \sigma(r(x_i, y_w^i) - r(x_i, y_l^i))$$

この損失を最小化することで、chosen 応答に高スコア、rejected 応答に低スコアを付与する報酬モデルが訓練される。

マージン付き損失

比較の「確信度」を反映するためにマージン項を追加した変種:

$$\mathcal{L}{margin} = -\frac{1}{N} \sum{i=1}^N \log \sigma(r(x_i, y_w^i) - r(x_i, y_l^i) - m_i)$$

$m_i$ は品質差の大きさに比例するマージンで、明確な選好ペアにはより大きな報酬差を要求する。Skywork-Reward モデルがこのマージン付き損失で RewardBench トップスコアを達成している。

Elo レーティングとの関係

Bradley-Terry モデルと Elo レーティングは数学的に等価であり、以下の対応関係がある。

BT モデル	Elo レーティング	対応
報酬スコア r	Elo レート R	R = 400 × r / ln(10)
σ(r_A - r_B)	期待勝率 E_A	同一関数

import torch
import torch.nn.functional as F

def bradley_terry_loss(rewards_chosen, rewards_rejected):
    """Bradley-Terry pairwise ranking loss."""
    return -F.logsigmoid(rewards_chosen - rewards_rejected).mean()

モデル	特徴	用途
Thurstone-Mosteller	正規分布ベース（BT はロジスティック分布）	理論的に等価だが計算が重い
Plackett-Luce	K個のランキングに対応した BT の一般化	K-wise ランキングデータの活用
多次元 BT	品質軸ごとに独立した BT モデル	ArmoRM の19次元評価
コンテキスト依存 BT	プロンプトの特性に応じてスコア関数を変化	ドメイン特化 RM

メニュー

Bradley-Terryモデル（ブラッドリーテリーモデル）

メニュー

Bradley-Terryモデル（ブラッドリーテリーモデル）

この用語に関連するコンテンツ