LLMの性能を定量的に測定・比較するプロセス。ベンチマーク(MMLU、HumanEval等)による自動評価、人間評価(Chatbot Arena等)、タスク固有評価(RAG品質、コード生成精度等)の3層で構成される。モデル選定・ファインチューニング・プロンプト最適化の意思決定基盤となる。
モデル評価(Model Evaluation)は、LLMの性能を定量的に測定し、異なるモデルやバージョン間での比較を可能にするプロセスである。「どのモデルが自分の用途に最適か」という実務上の判断から、「モデルの学習が成功したか」という研究上の検証まで、幅広い目的で実施される。
LLMの評価は従来の機械学習モデルの評価(精度・再現率・F1スコア等)より遥かに複雑である。自然言語の出力は正解が一つに定まらず、タスクの種類(質問応答、要約、コード生成、推論等)によって適切な評価指標が異なるためである。
| 評価層 | 目的 | 手法例 | コスト |
|---|---|---|---|
| ベンチマーク評価 | 汎用能力の比較 | MMLU, HumanEval, GSM8K | 低い |
| 人間評価 | 実用品質の判定 | Chatbot Arena, Side-by-side | 高い |
| タスク固有評価 | 特定用途の適合度 | RAGAS, カスタムeval | 中程度 |
| ベンチマーク | 測定対象 | 問題数 | 代表的なスコア(2026年) |
|---|---|---|---|
| MMLU-Pro | 多分野知識 | 12,032 | GPT-4o: 72%, Claude 3.5: 71% |
| HumanEval | コード生成 | 164 | GPT-4o: 90%, Claude 3.5: 92% |
| GSM8K | 数学推論 | 8,792 | GPT-4o: 95%, Llama 3.1 70B: 93% |
| MATH | 高度数学 | 5,000 | GPT-4o: 76%, Claude 3.5: 71% |
| MT-Bench | マルチターン会話 | 80 | GPT-4o: 9.1/10, Claude 3.5: 8.9/10 |
| Arena-Hard | 難易度高い実用タスク | 500 | モデル間の相対比較 |
| SWE-Bench | ソフトウェアエンジニアリング | 2,294 | Claude 3.5 Sonnet: 49% |
| LiveBench | 汚染対策付き最新評価 | 動的更新 | 月次更新で最新性維持 |
MMLU(Massive Multitask Language Understanding)は57科目の4択問題で構成される最も広く使われるベンチマークだが、データ汚染(学習データへの混入)や4択形式の限界が指摘され、MMLU-Proやより難易度の高いバージョンに移行しつつある。
LMSYSが運営するChatbot Arena(lmarena.ai)は、人間の盲検比較評価に基づくLLMランキングである。ユーザーが同じプロンプトに対する2つのモデルの出力を比較し、優れた方を選択する。累計200万以上の投票データに基づくEloレーティングが算出され、LLMの実用的な品質を最も信頼性高く反映するとされている。
2026年時点のトップモデルはGPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Proが接戦で、カテゴリ別(コーディング、数学、創作等)のランキングも公開されている。
ベンチマークスコアだけでモデルを選定することの危険性は広く認識されている。
データ汚染: ベンチマーク問題がモデルの学習データに含まれている場合、スコアが実力以上に高くなる。LiveBenchは定期的に問題を更新することでこの問題に対処している。
ベンチマークハッキング: モデル開発者がベンチマークに最適化したチューニングを行い、特定のベンチマークでのみ高スコアを達成する手法。汎用能力を反映しないスコアの膨張につながる。
タスク適合性のギャップ: MMLUで高スコアのモデルが自社の特定用途(例: 日本語の法律文書要約)で必ずしも最適とは限らない。タスク固有のカスタム評価セットでの検証が不可欠である。
プロダクション環境では、汎用ベンチマークに加えてタスク固有のカスタム評価セットを構築することが推奨される。
単一のベンチマークを過信せず、複数のベンチマーク+人間評価+カスタム評価の組み合わせで判断することを推奨する。汎用能力の比較にはChatbot Arenaのランキング、コーディング能力にはSWE-Bench、推論能力にはGSM8K/MATHが信頼性が高い。
完全な公平比較は困難である。プロプライエタリモデル(GPT-4o、Claude等)はバージョン管理が不透明で、API越しの評価しかできない。オープンソースモデルは推論設定(quantization、context length等)で結果が変わる。同一条件での比較にはOpen LLM LeaderboardやBigBenchのような標準化された評価プラットフォームの利用が推奨される。
日本語評価には Nejumi Leaderboard(Weights & Biases Japan)、Japanese MT-Bench、JGLUE等の日本語専用ベンチマークを使用する。英語ベンチマークのスコアは日本語性能と相関するが、直接的な指標にはならない。自社用途の日本語カスタム評価セットの構築が最も信頼性の高い評価方法である。