Arena-Hard-Autoとは？（アリーナハードオート）わかりやすく解説

Q: Arena-Hard-Autoとは？

LMSYS Chatbot Arenaの人間評価を自動化・高速化したLLMベンチマーク。実ユーザーの難しい質問500問を抽出し、GPT-4-Turboをジャッジモデルとしたペア比較で評価。人間投票との一致率89.1%を達成し、数万ドルのArena投票を$25以下で再現する。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Arena-Hard-Autoとは？（アリーナハードオート）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

Chatbot Arenaとの関係

項目	Chatbot Arena	Arena-Hard-Auto
評価者	人間（匿名ボランティア）	GPT-4-Turbo（LLM-as-Judge）
質問数	無限（ユーザー入力）	500問（固定）
評価方式	ブラインドペア比較	ベースライン比較
コスト	$10,000〜50,000（推定）	$25以下
所要時間	週〜月	数時間
人間一致率	—	89.1%（Spearman）
更新頻度	リアルタイム	随時実行可能

500問の選定プロセス

Arena-Hard-Autoの核心は、Chatbot Arenaの100万件以上の対話ログから「モデル間の差を最も鮮明にする500問」を統計的に抽出するプロセスにある。

クラスタリング: 全対話ログをトピック別にクラスタリング（コーディング・数学・創作・推論・知識等）
識別力スコア算出: 各質問について、上位モデルと下位モデルの勝率差を計算
上位500問選出: 識別力スコアが最も高い500問を選出。容易すぎる質問（全モデルが正答）と曖昧な質問（評価が分かれる）を除外
難易度バイアス: 結果として、コーディング・数学・論理推論の比重が高くなる（これらは上位・下位モデルの差が最も出やすいため）

評価フロー

回答生成: 評価対象モデルが500問全てに回答を生成
ベースライン比較: GPT-4-0314（2024年3月版）の回答をベースラインとして設定
ジャッジ評価: GPT-4-Turboが「評価対象モデルの回答 vs ベースラインの回答」をペア比較。Win/Lose/Tieの3値で判定
位置バイアス補正: 回答の表示順序を入れ替えて2回評価し、位置バイアスを相殺
勝率算出: 500問×2回 = 1,000判定から、ベースラインに対する勝率を算出
Bradley-Terryモデル: 勝率をBradley-Terryモデルに入力し、Eloレーティングに変換

主要モデルのスコア（2025年時点）

モデル	勝率（vs GPT-4-0314）	95%信頼区間
GPT-4o	79.3%	±2.1%
Claude 3.5 Sonnet	79.2%	±2.0%
Gemini 1.5 Pro	72.0%	±2.4%
Llama 3.1 405B	69.3%	±2.5%
Claude 3 Opus	60.4%	±2.7%
Mistral Large	55.7%	±2.8%
GPT-4-0314（ベースライン）	50.0%	—

コスト構造

コスト項目	金額
回答生成（500問・1モデル）	$2〜10（モデル依存）
ジャッジ評価（1,000判定）	$10〜15（GPT-4-Turbo）
合計（1モデル評価）	$12〜25

Chatbot Arenaの人間評価（推定$10,000〜50,000/モデル）と比較して99%以上のコスト削減を実現。

利用方法

# リポジトリクローン
git clone https://github.com/lm-sys/arena-hard-auto.git

# 回答生成
python gen_answer.py --model-name your-model --bench-name arena-hard-v0.1

# ジャッジ実行
python gen_judgment.py --model-name your-model --judge-model gpt-4-1106-preview

# 結果表示
python show_result.py

限界と注意点

ジャッジバイアス: GPT-4-Turboがジャッジのため、GPT系モデルに有利なバイアスが存在する可能性。Claude等をジャッジに切り替える実験も進行中
質問の固定性: 500問は2024年初頭のデータから抽出。新しいモデル能力（マルチモーダル・長文等）は評価対象外
コーディング偏重: 識別力ベースの選定により、コーディング・数学問題の比重が高い。創作・感情理解等のソフトスキルは過小評価される
単一ターン限定: マルチターン対話能力は評価しない

よくある質問（FAQ）

Q1: Chatbot ArenaとArena-Hard-Autoのどちらを信頼すべき？

A: 最終的な信頼性はChatbot Arena（人間評価）が上。Arena-Hard-Autoは「新モデルの暫定評価」「社内モデル比較」「開発中の迅速なA/Bテスト」に適している。公式ランキングはChatbot Arenaを参照。

Q2: 自社モデルの評価に使える？

A: 使える。OpenAI APIキーがあればジャッジ評価が実行可能。API非公開モデルでも、ローカルで回答を生成してJSON形式で渡せば評価できる。

Q3: ジャッジモデルをGPT-4以外に変更できる？

A: 可能。コードベースはジャッジモデルを差し替え可能な設計。ただしGPT-4-Turbo以外のジャッジでは人間一致率の検証が不十分なため、結果の信頼性は自己責任。

メニュー

Arena-Hard-Auto（アリーナハードオート）

メニュー

Arena-Hard-Auto（アリーナハードオート）

この用語に関連するコンテンツ