Stanford CRFM が開発した LLM の包括的評価フレームワーク。精度だけでなく、校正性・公平性・堅牢性・効率性・毒性など多軸メトリクスで透明性のあるモデル比較を実現する。
HELM(Holistic Evaluation of Language Models)は Stanford の Center for Research on Foundation Models(CRFM)が 2022 年に発表した LLM の包括的評価フレームワークである。従来のベンチマークが精度(accuracy)一軸で評価していたのに対し、HELM は 7 つのメトリクス軸 でモデルを多面的に評価し、「あるモデルが他のモデルより優れている」という単純な主張を避ける設計になっている。
| メトリクス | 説明 |
|---|---|
| 精度(Accuracy) | タスクごとの正解率・F1 スコア |
| 校正性(Calibration) | モデルの自信度と実際の正答率の一致度 |
| 堅牢性(Robustness) | 入力の言い換え・タイポ・敵対的摂動への耐性 |
| 公平性(Fairness) | 性別・人種・年齢等の属性による出力バイアス |
| 毒性(Toxicity) | 有害・攻撃的・差別的な出力の生成率 |
| 効率性(Efficiency) | 推論時間・トークン数・計算コスト |
| 偏り(Bias) | ステレオタイプの増幅・特定グループへの偏重 |
HELM はタスクを シナリオ(Scenario) と アダプテーション(Adaptation) の組合せで構成する。
この組合せにより、同一タスクでも異なるプロンプト戦略での性能差を体系的に測定できる。2026 年時点で 42 シナリオ・7 アダプテーション方式をカバーしている。
全評価結果はインタラクティブなリーダーボードで公開され、個別の出力例まで閲覧できる。これにより、スコアの裏にある具体的な成功・失敗パターンを検証可能にしている。
全モデルを同一条件(同一プロンプト・同一デコードパラメータ)で評価するため、論文ごとに評価条件が異なる問題を解消する。
新しいシナリオ・メトリクス・モデルの追加がプラグイン形式で可能。HELM-Lite(主要シナリオのみのサブセット)も提供されており、計算コストを抑えた迅速な評価に対応する。
意図的に単一スコアでの順位付けを避けている。メトリクス軸ごとに独立した順位が存在し、用途に応じてどの軸を重視するかはユーザーが判断する設計である。
オープンソースで公開されており、helm-run コマンドで自社モデルの評価をローカル実行できる。ただし全シナリオの実行には数百 GPU 時間を要するため、HELM-Lite の利用が推奨される。
MMLU は HELM の 42 シナリオの 1 つとして組み込まれている。HELM は MMLU 単体では測れない校正性・公平性・毒性等の側面を補完する上位フレームワークである。