LiveBench（ライブベンチ）

毎月新しい問題を追加し、データ汚染（data contamination）を防ぐ LLM 自動評価ベンチマーク。客観的・検証可能な正解基準を持ち、LLM 審判への依存を排除した設計が特徴。

0 回閲覧

0 いいね

関連する技術記事・ガイドを検索

PC構成ビルダーで最適なパーツを選択

設計原則

LiveBench は 3 つの設計原則に基づいている。

原則	説明
汚染耐性	毎月新問追加。古い問題は段階的に退役させ、常に未見問題で評価
客観的採点	数値解・完全一致・コード実行結果など検証可能な正解基準のみ使用
LLM 審判不使用	GPT-4 等による主観的採点を排除し、採点の再現性を担保

評価カテゴリ（6 分野 18 タスク）

LiveBench は以下の 6 カテゴリで構成される。

数学（Math）: 競技数学・AMC/AIME 級の問題、計算検証

コーディング（Coding）: LeetCode 新問・コード生成・バグ修正

推論（Reasoning）: 論理パズル・空間推論・Web of Lies

言語（Language）: テキスト分類・要約・文法判定

データ分析（Data Analysis）: 表データ読解・統計量算出

指示遵守（Instruction Following）: フォーマット制約・条件付き出力

スコアリング方式

各タスクは 0-100 のスコアで採点され、カテゴリごとの平均と総合平均が算出される。採点は完全自動化されており、人手介入や LLM 審判は一切使用しない。コーディング問題はサンドボックス内でコードを実行し、テストケースの通過率で採点する。数学問題は数値解の完全一致で判定する。

汚染検出メカニズム

LiveBench は問題の追加日をメタデータとして記録しており、モデルの学習データカットオフ日と照合することで汚染の可能性を推定できる。カットオフ後に追加された問題でのスコアが有意に低下するモデルは、旧問題で汚染の影響を受けている可能性が高い。

FAQ

Q1: LiveBench のスコアはどのくらいの頻度で更新されるか？

月次で新問題が追加され、リーダーボードも月次更新される。モデル提出者は毎月最新問題セットで再評価を受けることが推奨される。

Q2: 自分のモデルを LiveBench で評価できるか？

LiveBench のコードベースはオープンソースで公開されており、ローカル実行が可能である。API エンドポイントまたはローカル推論で回答を生成し、公式採点スクリプトでスコアを算出する。

Q3: LiveBench と Chatbot Arena の違いは？

Chatbot Arena は人間の主観評価による対戦方式、LiveBench は客観的正解基準による自動評価方式である。Arena は「回答の好ましさ」を測り、LiveBench は「問題解決の正確性」を測る。両者は評価対象が異なるため相補的に利用される。

メニュー