毎月新しい問題を追加し、データ汚染(data contamination)を防ぐ LLM 自動評価ベンチマーク。客観的・検証可能な正解基準を持ち、LLM 審判への依存を排除した設計が特徴。
LiveBench は 2024 年に公開された LLM 評価ベンチマークで、毎月新しい問題セットを追加 することで学習データへの混入(data contamination)を構造的に防ぐ。従来の固定問題セット型ベンチマーク(MMLU・HumanEval 等)では、モデルの学習データに評価問題が含まれてスコアが膨張する問題が深刻化しており、LiveBench はこれに対する解決策として設計された。
LiveBench は 3 つの設計原則に基づいている。
| 原則 | 説明 |
|---|---|
| 汚染耐性 | 毎月新問追加。古い問題は段階的に退役させ、常に未見問題で評価 |
| 客観的採点 | 数値解・完全一致・コード実行結果など検証可能な正解基準のみ使用 |
| LLM 審判不使用 | GPT-4 等による主観的採点を排除し、採点の再現性を担保 |
LiveBench は以下の 6 カテゴリで構成される。
各タスクは 0-100 のスコアで採点され、カテゴリごとの平均と総合平均が算出される。採点は完全自動化されており、人手介入や LLM 審判は一切使用しない。コーディング問題はサンドボックス内でコードを実行し、テストケースの通過率で採点する。数学問題は数値解の完全一致で判定する。
LiveBench は問題の追加日をメタデータとして記録しており、モデルの学習データカットオフ日と照合することで汚染の可能性を推定できる。カットオフ後に追加された問題でのスコアが有意に低下するモデルは、旧問題で汚染の影響を受けている可能性が高い。
月次で新問題が追加され、リーダーボードも月次更新される。モデル提出者は毎月最新問題セットで再評価を受けることが推奨される。
LiveBench のコードベースはオープンソースで公開されており、ローカル実行が可能である。API エンドポイントまたはローカル推論で回答を生成し、公式採点スクリプトでスコアを算出する。
Chatbot Arena は人間の主観評価による対戦方式、LiveBench は客観的正解基準による自動評価方式である。Arena は「回答の好ましさ」を測り、LiveBench は「問題解決の正確性」を測る。両者は評価対象が異なるため相補的に利用される。