Chatbot Arena / LMSYSとは？（チャットボットアリーナ / エルエムシス）わかりやすく解説

匿名化: モデル名を非公開にすることでブランドバイアスを排除
位置バイアス対策: A/B の表示位置をランダム化
回答長バイアス: 長い回答が有利になりやすいため、カテゴリ別（短文/長文）での分析を併記
スパム検出: 極端に短い滞在時間や同一パターンの投票を自動除外

LLMの対話品質をヒューマン評価で測定するオンラインプラットフォーム。匿名の2モデル対戦形式で利用者が勝敗を判定し、Eloレーティングでランキングを算出する。

Chatbot Arena / LMSYSとは？（チャットボットアリーナ / エルエムシス）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

Elo レーティングシステム

Chatbot Arena のランキングはチェスの Elo レーティングを応用した Bradley-Terry モデルに基づいて算出される。

モデル A がモデル B に勝つ確率は以下の式で表される:

P(A > B) = exp(r_A) / (exp(r_A) + exp(r_B))

ここで r_A, r_B は各モデルのレーティングパラメータ。初期値は1000で、対戦結果に応じて更新される。

順位	モデル	Elo レーティング	開発元
1	GPT-4o	1287	OpenAI
2	Claude 3.5 Sonnet	1271	Anthropic
3	Gemini 1.5 Pro	1260	Google
4	Llama 3.1 405B	1231	Meta
5	GPT-4 Turbo	1225	OpenAI
6	Claude 3 Opus	1213	Anthropic
7	Mistral Large	1187	Mistral AI
8	Gemini 1.5 Flash	1175	Google
9	Llama 3.1 70B	1168	Meta
10	Qwen2 72B	1155	Alibaba

評価手法	投票数	コスト	所要時間	ヒューマン相関
Chatbot Arena (Full)	200万+	無料（クラウドソーシング）	継続的	1.00（基準）
Arena-Hard	500問	~$25（API費用）	数時間	0.94
MT-Bench	80問	~$10	1時間	0.91
AlpacaEval 2.0	805問	~$15	数時間	0.93