汚染フリーを設計原則とするLLMベンチマーク。毎月新しい問題を自動生成・差し替えすることで、学習データへのリーク(データ汚染)を構造的に排除。数学・コーディング・推論・データ分析・言語理解・指示追従の6カテゴリで客観的に自動スコアリングする。
LiveBenchは、Abacus.AI・ウィスコンシン大学マディソン校・カーネギーメロン大学の共同チームが2024年6月に公開したLLMベンチマークである。最大の特徴は「データ汚染(Data Contamination)フリー」を設計原則とし、毎月新しい問題を自動生成・差し替えすることで、LLMが事前学習データから正答を暗記してしまう問題を構造的に排除する。
MMLU・HumanEval・GSM8K等の静的ベンチマークは、公開後にLLMの学習データに取り込まれる。結果として:
| 対策 | 実装方法 |
|---|---|
| 月次問題更新 | 毎月新問題を自動生成し、古い問題を退役。学習データに含まれる前に評価が完了 |
| 問題ソースの多様化 | 最新のarXiv論文・数学コンテスト・コーディングコンテスト・ニュース記事から出題 |
| 客観的自動スコアリング | LLM-as-Judgeではなく、完全一致・数値比較・コード実行等の客観基準で採点 |
| 透明性 | 全問題・正答・採点基準・過去問をGitHubで完全公開 |
| カテゴリ | 問題タイプ | 問題ソース | 採点方法 |
|---|---|---|---|
| Math | 数学問題 | AMC/AIME/IMO最新大会問題 | 数値完全一致 |
| Coding | プログラミング | Codeforces/LeetCode最新問題 | テストケース通過率 |
| Reasoning | 論理推論 | 新規生成パズル(Zebra Logic等) | 正答完全一致 |
| Data Analysis | データ分析 | 最新公開データセットから出題 | 統計値一致 |
| Language | 言語理解 | 最新ニュース・論文の要約・質問 | キーワード一致+ROUGE |
| Instruction Following | 指示追従 | 複合制約指示(IFEval派生) | 制約充足率 |
| モデル | 総合 | Math | Coding | Reasoning | Data Analysis |
|---|---|---|---|---|---|
| GPT-4o | 64.7 | 62.3 | 71.2 | 58.4 | 67.1 |
| Claude 3.5 Sonnet | 68.2 | 59.8 | 78.5 | 61.3 | 73.0 |
| Gemini 1.5 Pro | 59.4 | 55.1 | 64.8 | 55.7 | 62.0 |
| Llama 3.1 405B | 54.8 | 51.2 | 58.3 |
LiveBenchはオープンソースで全コードが公開されている。
livebench/LiveBench(問題データ・評価スクリプト)| 特性 | MMLU-Pro | Arena-Hard | LiveBench |
|---|---|---|---|
| 汚染対策 | なし(静的) | 低い(固定500問) | 月次更新で構造的排除 |
| 評価方式 | 選択式 | LLM-as-Judge | 客観的自動スコア |
| 更新頻度 | なし | なし | 毎月 |
| カバー範囲 | 学術知識 | 対話能力 | 6カテゴリ横断 |
| コスト | $50〜80 | $12〜25 | $20〜50 |
A: 同一月の問題セット内での比較は正確。異なる月の問題セットは難易度が変動するため、直接比較には注意が必要。公式リーダーボードは問題セットごとにスコアを管理している。
A: できる。GitHub上の評価スクリプトをローカルで実行し、モデルのAPI/ローカル推論で回答を生成すればよい。結果を公式リーダーボードに掲載したい場合は別途申請が必要。
A: LLM-as-Judge方式(Arena-Hard-Auto等)はジャッジモデル自身のバイアスが結果に影響する。LiveBenchは数値一致・コード実行・キーワード一致等の客観基準のみで採点し、ジャッジバイアスを完全に排除する設計を採用している。
| 52.4 |
| 57.1 |
| Mistral Large 2 | 49.3 | 45.6 | 52.1 | 47.8 | 51.7 |