Chatbot Arenaとは？（チャットボットアリーナ）わかりやすく解説

Hard Prompts: 高難度の指示・推論問題に特化
Coding: プログラミング・デバッグ・アルゴリズム
Math: 数学的推論・証明・計算
Creative Writing: 物語・詩・スタイル模倣
Instruction Following: 複雑な制約付き指示の遵守
Multi-Turn: 複数ターンの対話での一貫性

LMSYS Org が運営する大規模言語モデルのクラウドソース型評価プラットフォーム。ユーザーが2つの匿名モデルの回答をブラインド比較し、投票結果からEloレーティングを算出してモデルをランキングする。

Chatbot Arenaとは？（チャットボットアリーナ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

評価メカニズム

Chatbot ArenaはチェスのEloレーティングシステムを応用し、各モデルの相対的強さを数値化する。初期レーティングは1000で、対戦結果に応じて上下する。

要素	詳細
初期レーティング	1000
K-factor	4（収束後の変動幅）
最小投票数	対戦あたり300票以上で安定
信頼区間	Bootstrap法で95% CIを算出
カテゴリ別	Hard Prompts / Coding / Math / Creative Writing 等

Eloに加え、Bradley-Terry（BT）モデルを用いた最尤推定も併用されている。BTモデルは対戦結果の推移的整合性（A>B, B>C → A>C）をより正確に捕捉し、Eloとの相関係数は0.97以上である。

公正性を担保するため、以下のプロトコルが採用されている：

順位	モデル	Eloレーティング	組織
1	Claude 4 Opus	1320+	Anthropic
2	GPT-4o (2026-05)	1310+	OpenAI
3	Gemini 2.5 Pro	1305+	Google
4	Llama 4 Maverick	1280+	Meta
5	DeepSeek-V3	1275+	DeepSeek
6	Qwen3-235B-A22B	1270+	Alibaba
7	Mistral Large 3	1255+	Mistral AI