LMSYS Chatbot Arenaの人間評価を自動化・高速化したLLMベンチマーク。実ユーザーの難しい質問500問を抽出し、GPT-4-Turboをジャッジモデルとしたペア比較で評価。人間投票との一致率89.1%を達成し、数万ドルのArena投票を$25以下で再現する。
Arena-Hard-Autoは、LMSYS Org(UC Berkeley)が2024年4月に公開したLLM自動評価ベンチマークである。Chatbot Arenaの数十万件の人間投票データから「最も識別力の高い500問」を統計的に抽出し、GPT-4-Turboをジャッジモデルとしたペア比較で各モデルのEloレーティングを推定する。人間評価との一致率89.1%(Spearman相関)を達成しつつ、評価コストを数万ドル→$25以下に削減した。
| 項目 | Chatbot Arena | Arena-Hard-Auto |
|---|---|---|
| 評価者 | 人間(匿名ボランティア) | GPT-4-Turbo(LLM-as-Judge) |
| 質問数 | 無限(ユーザー入力) | 500問(固定) |
| 評価方式 | ブラインドペア比較 | ベースライン比較 |
| コスト | $10,000〜50,000(推定) | $25以下 |
| 所要時間 | 週〜月 | 数時間 |
| 人間一致率 | — | 89.1%(Spearman) |
| 更新頻度 | リアルタイム | 随時実行可能 |
Arena-Hard-Autoの核心は、Chatbot Arenaの100万件以上の対話ログから「モデル間の差を最も鮮明にする500問」を統計的に抽出するプロセスにある。
| モデル | 勝率(vs GPT-4-0314) | 95%信頼区間 |
|---|---|---|
| GPT-4o | 79.3% | ±2.1% |
| Claude 3.5 Sonnet | 79.2% | ±2.0% |
| Gemini 1.5 Pro | 72.0% | ±2.4% |
| Llama 3.1 405B | 69.3% | ±2.5% |
| Claude 3 Opus | 60.4% | ±2.7% |
| Mistral Large | 55.7% | ±2.8% |
| GPT-4-0314(ベースライン) | 50.0% | — |
| コスト項目 | 金額 |
|---|---|
| 回答生成(500問・1モデル) | $2〜10(モデル依存) |
| ジャッジ評価(1,000判定) | $10〜15(GPT-4-Turbo) |
| 合計(1モデル評価) | $12〜25 |
Chatbot Arenaの人間評価(推定$10,000〜50,000/モデル)と比較して99%以上のコスト削減を実現。
# リポジトリクローン
git clone https://github.com/lm-sys/arena-hard-auto.git
# 回答生成
python gen_answer.py --model-name your-model --bench-name arena-hard-v0.1
# ジャッジ実行
python gen_judgment.py --model-name your-model --judge-model gpt-4-1106-preview
# 結果表示
python show_result.py
A: 最終的な信頼性はChatbot Arena(人間評価)が上。Arena-Hard-Autoは「新モデルの暫定評価」「社内モデル比較」「開発中の迅速なA/Bテスト」に適している。公式ランキングはChatbot Arenaを参照。
A: 使える。OpenAI APIキーがあればジャッジ評価が実行可能。API非公開モデルでも、ローカルで回答を生成してJSON形式で渡せば評価できる。
A: 可能。コードベースはジャッジモデルを差し替え可能な設計。ただしGPT-4-Turbo以外のジャッジでは人間一致率の検証が不十分なため、結果の信頼性は自己責任。