LLMの対話品質をヒューマン評価で測定するオンラインプラットフォーム。匿名の2モデル対戦形式で利用者が勝敗を判定し、Eloレーティングでランキングを算出する。
Chatbot Arena は、UC Berkeley の LMSYS(Large Model Systems Organization)が2023年に公開したLLM のヒューマン評価プラットフォームである。利用者が匿名の2つのモデルに同じ質問を投げかけ、どちらの回答が優れているかを判定するブラインドテスト方式を採用している。
2024年時点で200万件以上の投票データが蓄積されており、LLM の実用的な対話品質を測定する最も信頼性の高いベンチマークの一つとして広く認知されている。
Chatbot Arena のランキングはチェスの Elo レーティングを応用した Bradley-Terry モデルに基づいて算出される。
モデル A がモデル B に勝つ確率は以下の式で表される:
P(A > B) = exp(r_A) / (exp(r_A) + exp(r_B))
ここで r_A, r_B は各モデルのレーティングパラメータ。初期値は1000で、対戦結果に応じて更新される。
| レーティング差 | 高い方の勝率 | 解釈 |
|---|---|---|
| 0 | 50% | 互角 |
| 50 | 57% | わずかな差 |
| 100 | 64% | 明確な差 |
| 200 | 76% | 大きな差 |
| 400 |
| 91% |
| 圧倒的な差 |
| 順位 | モデル | Elo レーティング | 開発元 |
|---|---|---|---|
| 1 | GPT-4o | 1287 | OpenAI |
| 2 | Claude 3.5 Sonnet | 1271 | Anthropic |
| 3 | Gemini 1.5 Pro | 1260 | |
| 4 | Llama 3.1 405B | 1231 | Meta |
| 5 | GPT-4 Turbo | 1225 | OpenAI |
| 6 | Claude 3 Opus | 1213 | Anthropic |
| 7 | Mistral Large | 1187 | Mistral AI |
| 8 | Gemini 1.5 Flash | 1175 | |
| 9 | Llama 3.1 70B | 1168 | Meta |
| 10 | Qwen2 72B | 1155 | Alibaba |
※ ランキングは日々更新される。最新データは lmsys.org で確認できる。
Chatbot Arena のヒューマン評価は高精度だが、コストと時間がかかる(数千件の投票に数週間を要する場合がある)。この問題を解決するため、LMSYS チームは Arena-Hard を開発した。
| 評価手法 | 投票数 | コスト | 所要時間 | ヒューマン相関 |
|---|---|---|---|---|
| Chatbot Arena (Full) | 200万+ | 無料(クラウドソーシング) | 継続的 | 1.00(基準) |
| Arena-Hard | 500問 | ~$25(API費用) | 数時間 | 0.94 |
| MT-Bench | 80問 | ~$10 | 1時間 | 0.91 |
| AlpacaEval 2.0 | 805問 | ~$15 | 数時間 | 0.93 |
利用者がプロンプトを入力すると、ランダムに選ばれた2つのモデルがそれぞれ回答を生成する。モデル名は非公開(「Model A」「Model B」と表示)で、利用者は以下の4択で判定する。
Chatbot Arena は全体ランキングに加えて、以下のカテゴリ別ランキングも提供している。
| カテゴリ | 評価対象 | 代表的な強モデル |
|---|---|---|
| Coding | コード生成・デバッグ | Claude 3.5 Sonnet, DeepSeek-V2 |
| Math | 数学的推論 | GPT-4o, Claude 3.5 Sonnet |
| Hard Prompts | 複雑な指示追従 | GPT-4o, Gemini 1.5 Pro |
| Multilingual | 多言語対話 | GPT-4o, Gemini 1.5 Pro |
| Creative Writing | 創作文章 | Claude 3 Opus, GPT-4o |
統計的には非常に信頼性が高い。200万件以上の投票データに基づくブートストラップ信頼区間が算出されており、上位モデル間の差がレーティング20ポイント以内の場合は「統計的に有意差なし」と解釈される。ただし、投票者層の偏り(技術者寄り・英語話者中心)による選択バイアスは存在する。日本語やアラビア語などの非英語タスクでは投票数が少なく、ランキングの信頼性が低下する。
LMSYS に直接問い合わせてモデルを登録する。API エンドポイントを提供すれば、Chatbot Arena のインフラ上でモデルが配信される。ただし、十分な投票数(通常3,000〜5,000票)が蓄積されるまでランキングには反映されない。プロプライエタリモデルの場合、API コスト(利用者の投票ごとにAPI呼び出しが発生)も考慮が必要である。
開発サイクルの頻度で選択する。MT-Bench は80問で高速(1時間以内)だが、識別力がやや低い。Arena-Hard は500問でより精度が高いが、Judge モデルのAPIコストがかかる。日常的な開発では MT-Bench を使い、リリース前の最終評価で Arena-Hard を実行するのが実践的である。いずれも Chatbot Arena のフルヒューマン評価の代替であり、最終判断にはヒューマン評価を含めることが望ましい。