HELM (Holistic Evaluation of Language Models)とは？（ヘルム）わかりやすく解説

Stanford CRFM が開発した LLM の包括的評価フレームワーク。精度だけでなく、校正性・公平性・堅牢性・効率性・毒性など多軸メトリクスで透明性のあるモデル比較を実現する。

HELM (Holistic Evaluation of Language Models)とは？（ヘルム）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

7 つの評価メトリクス

HELM はタスクを シナリオ（Scenario） と アダプテーション（Adaptation） の組合せで構成する。

この組合せにより、同一タスクでも異なるプロンプト戦略での性能差を体系的に測定できる。2026 年時点で 42 シナリオ・7 アダプテーション方式をカバーしている。

全評価結果はインタラクティブなリーダーボードで公開され、個別の出力例まで閲覧できる。これにより、スコアの裏にある具体的な成功・失敗パターンを検証可能にしている。

全モデルを同一条件（同一プロンプト・同一デコードパラメータ）で評価するため、論文ごとに評価条件が異なる問題を解消する。

新しいシナリオ・メトリクス・モデルの追加がプラグイン形式で可能。HELM-Lite（主要シナリオのみのサブセット）も提供されており、計算コストを抑えた迅速な評価に対応する。

意図的に単一スコアでの順位付けを避けている。メトリクス軸ごとに独立した順位が存在し、用途に応じてどの軸を重視するかはユーザーが判断する設計である。

オープンソースで公開されており、helm-run コマンドで自社モデルの評価をローカル実行できる。ただし全シナリオの実行には数百 GPU 時間を要するため、HELM-Lite の利用が推奨される。

MMLU は HELM の 42 シナリオの 1 つとして組み込まれている。HELM は MMLU 単体では測れない校正性・公平性・毒性等の側面を補完する上位フレームワークである。