月次で問題を更新する動的LLMベンチマーク。データ汚染(contamination)を構造的に回避し、math・reasoning・coding・language・data analysis・instruction followingの6カテゴリでLLMを客観評価する。LLM judge を使用せず自動採点のみで評価する。
PC構成ビルダーで最適なパーツを選択
LiveBench(ライブベンチ)は、Abacus.AIとCMU等の研究チームが2024年6月に公開した動的LLM評価ベンチマークである。最大の特徴は問題セットを月次で更新することにあり、これにより静的ベンチマーク(MMLU・GSM8K等)で深刻化していたデータ汚染問題を構造的に回避する。2026年6月時点で累計18回の更新が実施され、毎月新しい問題が追加されている。
LiveBenchは以下の3つの設計原則に基づいている:
| 原則 | 詳細 |
|---|---|
| 汚染耐性 | 公開前の新規問題で評価し、学習データへの混入を防止 |
| LLM judge不使用 | 客観的に正解が確定する問題のみ出題し、審判モデルのバイアスを排除 |
| 自動更新 | 月次で新問題を追加し、ベンチマークの鮮度を維持 |
AlpacaEval・MT-Bench・Arena-Hard-Auto等はGPT-4を審判として使用するが、審判モデル自身のバイアス(冗長な回答を高評価・自社モデル優遇等)が問題視されている。LiveBenchは正解が一意に確定する問題(数学の解・コードの出力・事実の正誤等)のみを出題することで、この問題を根本的に解消している。
LiveBenchは6つのカテゴリ・18のサブタスクで構成される。
| カテゴリ | サブタスク | 問題例 |
|---|---|---|
| Math | AMC/AIME, Olympiad, Proof | 数学コンテストの新問(最新の出題から抽出) |
| Reasoning | Web of Lies, Zebra Puzzle, Spatial | 論理パズル・空間推論・演繹推理 |
| Coding | LeetCode Hard, Code Generation | 最新のLeetCode問題・アルゴリズム実装 |
| Language | Typo Detection, Grammar, Paraphrase | 文法誤り検出・言い換え判定 |
| Data Analysis | Table QA, CSV Reasoning | 表データからの推論・集計 |
| Instruction Following | Format Constraints, Multi-step | 複雑な出力制約の遵守 |
各カテゴリのスコアは0-100で正規化され、全体スコアは6カテゴリの平均で算出される。
新問題の公開後、以下の方法で汚染を監視する:
| モデル | 全体 | Math | Reasoning | Coding | Language | Data | IF |
|---|---|---|---|---|---|---|---|
| Claude 4 Opus | 78.3 | 82.1 | 79.5 | 85.2 | 72.4 | 75.8 | 74.8 |
| GPT-4o (2026-05) | 76.8 | 80.5 | 77.2 | 83.6 | 74.1 | 73.9 | 71.5 |
| Gemini 2.5 Pro | 75.4 | 83.7 | 75.8 |
| ベンチマーク | 更新頻度 | LLM judge | カテゴリ数 | 問題数/月 | 公開 |
|---|---|---|---|---|---|
| LiveBench | 月次 | 不使用 | 6 | 50-80 | OSS |
| SEAL Leaderboard | 隔週 | 部分使用 | 8 | 30-50 | 非公開 |
| Chatbot Arena | 連続 | 不使用(人間) | 6+ | N/A | OSS |
| WildBench | 四半期 | GPT-4 | 5 |
LiveBenchはLLM judge完全不使用かつ月次更新という組み合わせで独自のポジションを占めている。
企業がLLMを選定する際、静的ベンチマーク(MMLU等)のスコアはデータ汚染の可能性があるため信頼性に疑問がある。LiveBenchの最新月のスコアは汚染リスクが最小限であり、より正確なモデル比較が可能である。
モデルプロバイダーがAPIモデルを更新した際、品質の維持・向上を確認するためにLiveBenchを定点観測として使用できる。OpenAIやAnthropicのモデル更新後にスコア変動をチェックする研究者は多い。
新しい学習手法(DPO・RLHF・Constitutional AI等)の効果を汚染フリーで測定する際に利用される。特にMathカテゴリは最新のコンテスト問題を使用するため、数学的推論能力の純粋な評価に適している。
Q1: LiveBenchの問題は公開後に学習データに取り込まれませんか?
A: 公開後の問題は確かに学習データに含まれ得る。そのためLiveBenchでは最新月のスコアを最も信頼性の高い指標とし、古い月の問題はアーカイブとして扱う。月次更新により常に未汚染の問題が利用可能な状態を維持している。
Q2: LLM judgeを使わないことのデメリットはありますか?
A: 正解が一意に確定する問題に限定されるため、創造的ライティング・対話の自然さ・説明の分かりやすさ等の主観的品質は評価できない。これらの評価にはChatbot ArenaやAlpacaEvalが適している。LiveBenchは客観的能力の測定に特化したベンチマークである。
Q3: LiveBenchのスコアとChatbot Arena Eloの順位が異なることがありますが、どちらを信頼すべきですか?
A: 両者は異なる側面を測定している。LiveBenchは客観的なタスク遂行能力(正解を出せるか)、Chatbot Arenaは主観的な回答品質(人間がどちらの回答を好むか)を評価する。用途に応じて使い分けるべきであり、技術的な正確性が重要ならLiveBench、対話品質が重要ならChatbot Arenaを参照するのが適切である。
| 79.3 |
| 71.2 |
| 74.6 |
| 67.8 |
| DeepSeek-V3 | 71.2 | 76.3 | 72.4 | 78.9 | 65.8 | 69.5 | 64.3 |
| Llama 4 Maverick | 68.5 | 71.8 | 69.2 | 74.5 | 63.4 | 67.1 | 65.0 |
| 200-300 |
| OSS |