AIモデルの安全性を体系的に評価するためのテストスイートや評価基準。有害コンテンツ生成率、バイアス度合い、ジェイルブレイク耐性などを定量的に測定し、モデル間の安全性比較を可能にする。
AI Safety Benchmark(AI安全性ベンチマーク)とは、AIモデルが有害・不適切・危険な出力を生成するリスクを定量的に評価するためのテストスイート群である。モデルの能力を測るMMLUやHumanEvalなどの性能ベンチマークに対して、安全性ベンチマークはモデルの「やってはいけないこと」への耐性を測定する。
近年のLLM開発において、安全性評価は性能評価と同等以上の重要性を持つようになっており、主要モデルのリリース前には複数の安全性ベンチマークによる評価が標準的に実施されている。
| ベンチマーク | 開発元 | 評価対象 | 特徴 |
|---|---|---|---|
| ToxiGen | Microsoft | 有害テキスト生成 | 13の人口統計グループへの暗黙的毒性を測定 |
| BBQ | 社会的バイアス | 9つのバイアスカテゴリで曖昧性下の判断を評価 | |
| RealToxicityPrompts | Allen AI | 毒性継続生成 | 10万件のプロンプトに対する毒性応答の確率を測定 |
| HarmBench | CHPR | ジェイルブレイク耐性 | 多様な攻撃手法に対するモデルの堅牢性を評価 |
| SafetyBench | PKU | 多言語安全性 | 中国語・英語で7つの安全カテゴリを評価 |
| WildGuard | Allen AI | 入出力安全性 | 実世界の有害クエリに基づく安全性分類精度 |
暴力的・差別的・性的に不適切なコンテンツの生成傾向を測定する。単純な有害ワードの出現率だけでなく、文脈依存の微妙な毒性(マイクロアグレッション、暗黙的ステレオタイプなど)の検出も含む。
性別、人種、年齢、宗教、障害、性的指向などの社会的属性に関する不公平な偏りを測定する。質問の前提に曖昧性がある場合に、モデルがステレオタイプに基づく推論を行うかどうかを評価する。
意図的にモデルの安全制約を回避しようとする攻撃プロンプト(ジェイルブレイク)に対する耐性を評価する。GCG攻撃、多言語攻撃、ロールプレイ攻撃など多様な攻撃手法への堅牢性を測定する。
学習データに含まれる個人情報や機密情報をモデルが出力するリスクを評価する。メンバーシップ推論攻撃やデータ抽出攻撃への耐性を含む。
有害な要求を適切に拒否しつつ、無害な要求を不必要に拒否しない能力を評価する。過剰拒否(Over-refusal)は安全性ベンチマークでは減点対象となる。
安全性ベンチマークの設計には固有の課題がある:
主要AI企業はリリース前に以下のプロセスを実施する:
A1: ベンチマークは既知のリスクカテゴリに対する耐性を測定するものであり、未知の攻撃手法や新しい有害性パターンへの対応を保証しません。ベンチマークスコアは安全性の「必要条件」であり「十分条件」ではないと理解すべきです。
A2: 用途に応じた組み合わせが推奨されます。一般的にはToxiGen(毒性)+ BBQ(バイアス)+ HarmBench(堅牢性)の3種が基本セットとして広く使われています。多言語対応が必要な場合はSafetyBenchを追加し、特定業界向けにはカスタムベンチマークの構築も検討してください。
A3: 透明性の観点から公開が推奨されますが、詳細な攻撃プロンプトの公開は新たな攻撃手法の拡散につながるリスクがあります。スコアとカテゴリ別の傾向は公開し、具体的な攻撃手法の詳細は責任ある開示(Responsible Disclosure)の枠組みで取り扱うのが一般的です。