汚染フリーを設計原則とするLLMベンチマーク。毎月新しい問題を自動生成・差し替えすることで、学習データへのリーク（データ汚染）を構造的に排除。数学・コーディング・推論・データ分析・言語理解・指示追従の6カテゴリで客観的に自動スコアリングする。

LiveBenchとは？（ライブベンチ）わかりやすく解説

LiveBenchとは？（ライブベンチ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

データ汚染問題とLiveBenchの解決策

MMLU・HumanEval・GSM8K等の静的ベンチマークは、公開後にLLMの学習データに取り込まれる。結果として:

対策	実装方法
月次問題更新	毎月新問題を自動生成し、古い問題を退役。学習データに含まれる前に評価が完了
問題ソースの多様化	最新のarXiv論文・数学コンテスト・コーディングコンテスト・ニュース記事から出題
客観的自動スコアリング	LLM-as-Judgeではなく、完全一致・数値比較・コード実行等の客観基準で採点
透明性	全問題・正答・採点基準・過去問をGitHubで完全公開

カテゴリ	問題タイプ	問題ソース	採点方法
Math	数学問題	AMC/AIME/IMO最新大会問題	数値完全一致
Coding	プログラミング	Codeforces/LeetCode最新問題	テストケース通過率
Reasoning	論理推論	新規生成パズル（Zebra Logic等）	正答完全一致
Data Analysis	データ分析	最新公開データセットから出題	統計値一致
Language	言語理解	最新ニュース・論文の要約・質問	キーワード一致+ROUGE
Instruction Following	指示追従	複合制約指示（IFEval派生）	制約充足率

モデル	総合	Math	Coding	Reasoning	Data Analysis
GPT-4o	64.7	62.3	71.2	58.4	67.1
Claude 3.5 Sonnet	68.2	59.8	78.5	61.3	73.0
Gemini 1.5 Pro	59.4	55.1	64.8	55.7	62.0
Llama 3.1 405B	54.8	51.2	58.3

LiveBenchはオープンソースで全コードが公開されている。

特性	MMLU-Pro	Arena-Hard	LiveBench
汚染対策	なし（静的）	低い（固定500問）	月次更新で構造的排除
評価方式	選択式	LLM-as-Judge	客観的自動スコア
更新頻度	なし	なし	毎月
カバー範囲	学術知識	対話能力	6カテゴリ横断
コスト	$50〜80	$12〜25	$20〜50

A: 同一月の問題セット内での比較は正確。異なる月の問題セットは難易度が変動するため、直接比較には注意が必要。公式リーダーボードは問題セットごとにスコアを管理している。

A: できる。GitHub上の評価スクリプトをローカルで実行し、モデルのAPI/ローカル推論で回答を生成すればよい。結果を公式リーダーボードに掲載したい場合は別途申請が必要。

A: LLM-as-Judge方式（Arena-Hard-Auto等）はジャッジモデル自身のバイアスが結果に影響する。LiveBenchは数値一致・コード実行・キーワード一致等の客観基準のみで採点し、ジャッジバイアスを完全に排除する設計を採用している。