LMSYS Org が運営する大規模言語モデルのクラウドソース型評価プラットフォーム。ユーザーが2つの匿名モデルの回答をブラインド比較し、投票結果からEloレーティングを算出してモデルをランキングする。
Chatbot Arena(チャットボットアリーナ)は、UC BerkeleyのLMSYS Orgが2023年5月に公開した、大規模言語モデルのクラウドソース型評価プラットフォームである。ユーザーが任意のプロンプトを入力すると、2つの匿名モデルが同時に回答を生成し、ユーザーはどちらが優れているかを投票する。2026年6月時点で累計1,500万票以上の投票データが蓄積され、100以上のモデルがランキングされている。
Chatbot ArenaはチェスのEloレーティングシステムを応用し、各モデルの相対的強さを数値化する。初期レーティングは1000で、対戦結果に応じて上下する。
| 要素 | 詳細 |
|---|---|
| 初期レーティング | 1000 |
| K-factor | 4(収束後の変動幅) |
| 最小投票数 | 対戦あたり300票以上で安定 |
| 信頼区間 | Bootstrap法で95% CIを算出 |
| カテゴリ別 | Hard Prompts / Coding / Math / Creative Writing 等 |
Eloに加え、Bradley-Terry(BT)モデルを用いた最尤推定も併用されている。BTモデルは対戦結果の推移的整合性(A>B, B>C → A>C)をより正確に捕捉し、Eloとの相関係数は0.97以上である。
公正性を担保するため、以下のプロトコルが採用されている:
| 順位 | モデル | Eloレーティング | 組織 |
|---|---|---|---|
| 1 | Claude 4 Opus | 1320+ | Anthropic |
| 2 | GPT-4o (2026-05) | 1310+ | OpenAI |
| 3 | Gemini 2.5 Pro | 1305+ | |
| 4 | Llama 4 Maverick | 1280+ | Meta |
| 5 | DeepSeek-V3 | 1275+ | DeepSeek |
| 6 | Qwen3-235B-A22B | 1270+ | Alibaba |
| 7 | Mistral Large 3 | 1255+ | Mistral AI |
※レーティングは日々変動する。最新値はlmarena.aiで確認。
2024年後半から、全体Eloに加えてタスクカテゴリ別のリーダーボードが導入された。
これにより「コーディングはClaude、創作はGPT-4o」のような用途別の強みが可視化されている。
Chatbot Arenaの人間投票は高品質だがスケーラビリティに限界がある。この課題を解決するため、LMSYS Orgは自動版のArena-Hard-Autoを開発した。500問の高難度プロンプトをGPT-4が審判として評価し、人間投票Eloとの相関係数0.89を達成している。CI/CDパイプラインへの統合が可能で、モデル開発時の反復評価に利用される。
2025年以降、主要AIラボのモデルリリースにはChatbot Arena Eloスコアが事実上の必須指標として含まれるようになった。Anthropic・OpenAI・Google・Meta・Mistral AI等の全てがArenaへのモデル登録を行っている。
Chatbot Arenaの論文「Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference」(ICML 2024)は2,000以上の引用を獲得し、LLM評価研究の基盤文献となっている。
Q1: Chatbot ArenaのEloレーティングはどの程度信頼できますか?
A: Bootstrap法による95%信頼区間が公開されており、上位モデル間の差が統計的に有意かどうか判定できる。1,500万票超の大規模データに基づくため、安定したモデルのレーティングは±5程度の精度で信頼できる。
Q2: 自分のモデルをChatbot Arenaに登録するにはどうすればよいですか?
A: LMSYS Orgのパートナーシッププログラムに申請する。APIエンドポイントを提供し、一定期間の評価を経てリーダーボードに掲載される。オープンソースモデルは比較的容易に登録可能である。
Q3: なぜベンチマークスコアとChatbot Arenaの順位が異なることがあるのですか?
A: MMLUなどの自動ベンチマークは選択問題形式で評価するが、Chatbot Arenaは自由形式の対話品質を人間が直接評価する。回答の自然さ・有用性・フォーマットの見やすさ等、自動指標では捕捉できない要素が反映されるためである。