月次で問題を更新する動的LLMベンチマーク。データ汚染（contamination）を構造的に回避し、math・reasoning・coding・language・data analysis・instruction followingの6カテゴリでLLMを客観評価する。LLM judge を使用せず自動採点のみで評価する。

LiveBenchとは？（ライブベンチ）わかりやすく解説

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

LiveBenchとは？（ライブベンチ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

設計原則

LiveBenchは以下の3つの設計原則に基づいている：

原則	詳細
汚染耐性	公開前の新規問題で評価し、学習データへの混入を防止
LLM judge不使用	客観的に正解が確定する問題のみ出題し、審判モデルのバイアスを排除
自動更新	月次で新問題を追加し、ベンチマークの鮮度を維持

なぜLLM judgeを使わないのか

AlpacaEval・MT-Bench・Arena-Hard-Auto等はGPT-4を審判として使用するが、審判モデル自身のバイアス（冗長な回答を高評価・自社モデル優遇等）が問題視されている。LiveBenchは正解が一意に確定する問題（数学の解・コードの出力・事実の正誤等）のみを出題することで、この問題を根本的に解消している。

評価カテゴリ

LiveBenchは6つのカテゴリ・18のサブタスクで構成される。

カテゴリ	サブタスク	問題例
Math	AMC/AIME, Olympiad, Proof	数学コンテストの新問（最新の出題から抽出）
Reasoning	Web of Lies, Zebra Puzzle, Spatial	論理パズル・空間推論・演繹推理
Coding	LeetCode Hard, Code Generation	最新のLeetCode問題・アルゴリズム実装
Language	Typo Detection, Grammar, Paraphrase	文法誤り検出・言い換え判定
Data Analysis	Table QA, CSV Reasoning	表データからの推論・集計
Instruction Following	Format Constraints, Multi-step	複雑な出力制約の遵守

各カテゴリのスコアは0-100で正規化され、全体スコアは6カテゴリの平均で算出される。

問題生成・更新プロセス

自動生成パイプライン

ソース収集: 数学コンテスト（AMC/AIME/IMO）、LeetCode新問、最新ニュース記事等から素材を収集
問題変換: 素材をLLM評価に適した形式に変換（選択問題化・制約追加等）
正解確認: 複数の手法（解析解・計算検証・人間確認）で正解を検証
難易度調整: 既存モデルのスコア分布から適切な難易度に調整
公開: 月初に新問題セットをリリースし、過去の問題は公開

汚染検知メカニズム

新問題の公開後、以下の方法で汚染を監視する：

スコア急上昇検知: 特定モデルのスコアが前月比15%以上上昇した場合にフラグ
問題別異常検知: 正答率が統計的に異常に高い問題を特定
n-gramマッチング: 問題文と公開ウェブコーパスの重複を検出

2026年6月時点のスコア

モデル	全体	Math	Reasoning	Coding	Language	Data	IF
Claude 4 Opus	78.3	82.1	79.5	85.2	72.4	75.8	74.8
GPT-4o (2026-05)	76.8	80.5	77.2	83.6	74.1	73.9	71.5
Gemini 2.5 Pro	75.4	83.7	75.8

他の動的ベンチマークとの比較

ベンチマーク	更新頻度	LLM judge	カテゴリ数	問題数/月	公開
LiveBench	月次	不使用	6	50-80	OSS
SEAL Leaderboard	隔週	部分使用	8	30-50	非公開
Chatbot Arena	連続	不使用（人間）	6+	N/A	OSS
WildBench	四半期	GPT-4	5

LiveBenchはLLM judge完全不使用かつ月次更新という組み合わせで独自のポジションを占めている。

活用シーン

モデル選定

企業がLLMを選定する際、静的ベンチマーク（MMLU等）のスコアはデータ汚染の可能性があるため信頼性に疑問がある。LiveBenchの最新月のスコアは汚染リスクが最小限であり、より正確なモデル比較が可能である。

継続的モニタリング

モデルプロバイダーがAPIモデルを更新した際、品質の維持・向上を確認するためにLiveBenchを定点観測として使用できる。OpenAIやAnthropicのモデル更新後にスコア変動をチェックする研究者は多い。

研究開発

新しい学習手法（DPO・RLHF・Constitutional AI等）の効果を汚染フリーで測定する際に利用される。特にMathカテゴリは最新のコンテスト問題を使用するため、数学的推論能力の純粋な評価に適している。

よくある質問（FAQ）

Q1: LiveBenchの問題は公開後に学習データに取り込まれませんか？

A: 公開後の問題は確かに学習データに含まれ得る。そのためLiveBenchでは最新月のスコアを最も信頼性の高い指標とし、古い月の問題はアーカイブとして扱う。月次更新により常に未汚染の問題が利用可能な状態を維持している。

Q2: LLM judgeを使わないことのデメリットはありますか？

A: 正解が一意に確定する問題に限定されるため、創造的ライティング・対話の自然さ・説明の分かりやすさ等の主観的品質は評価できない。これらの評価にはChatbot ArenaやAlpacaEvalが適している。LiveBenchは客観的能力の測定に特化したベンチマークである。

Q3: LiveBenchのスコアとChatbot Arena Eloの順位が異なることがありますが、どちらを信頼すべきですか？

A: 両者は異なる側面を測定している。LiveBenchは客観的なタスク遂行能力（正解を出せるか）、Chatbot Arenaは主観的な回答品質（人間がどちらの回答を好むか）を評価する。用途に応じて使い分けるべきであり、技術的な正確性が重要ならLiveBench、対話品質が重要ならChatbot Arenaを参照するのが適切である。

まとめ

LiveBenchは月次更新の動的LLMベンチマークでデータ汚染を構造的に回避
LLM judge不使用で審判モデルバイアスを排除し客観評価に特化
Math・Reasoning・Coding・Language・Data Analysis・IFの6カテゴリで総合評価
最新月のスコアが最も信頼性が高く、モデル選定・継続監視に有用
主観的品質（対話の自然さ・創造性）の評価にはChatbot Arena等と併用すべき

メニュー

LiveBench（ライブベンチ）

この用語に関連するコンテンツ

メニュー

LiveBench（ライブベンチ）

この用語に関連するコンテンツ