LLM安全性評価フレームワークとは？（エルエルエムアンゼンセイヒョウカフレームワーク）わかりやすく解説

LLM安全性評価フレームワークとは、大規模言語モデルの安全性・堅牢性・倫理性を体系的にテスト・測定するためのベンチマーク、ツールキット、評価基準の総称である。HarmBench、MITRE ATLAS、OWASP LLM Top 10などが代表例。

主要フレームワーク比較

フレームワーク	開発元	評価項目数	対象	更新頻度	特徴
HarmBench	Center for AI Safety	400+	テキスト・マルチモーダル	半年	攻撃成功率（ASR）の標準ベンチマーク
MITRE ATLAS	MITRE Corp	100+	ML全般	四半期	ATT&CKフレームワークのAI版
OWASP LLM Top 10	OWASP Foundation	10カテゴリ	LLMアプリ	年次	Webセキュリティ知見のLLM応用
MLCommons AI Safety	MLCommons	50+	テキスト	年次	業界コンソーシアムによる共通ベンチマーク
DecodingTrust	Stanford/UC Berkeley	8次元	テキスト	研究ベース	学術的な多次元評価
EU AI Act Conformity	EU AI Office	200+	高リスクAI	法定	法的準拠要件の技術実装

HarmBenchの詳細

HarmBench（2024年発表）はLLM安全性の事実上の標準ベンチマークである：

評価指標: Attack Success Rate（ASR）= 攻撃成功プロンプト数 / 全攻撃プロンプト数

攻撃手法: GCG、AutoDAN、PAIR、TAP、Human Jailbreaks、DirectRequestの6カテゴリ

合格基準: ASR 5%以下（全カテゴリ平均）が商用デプロイの目安

2025年結果: Claude 3.5 Sonnet ASR 2.3%、GPT-4o ASR 4.1%、Gemini 1.5 Pro ASR 5.8%

制限事項: 英語中心、マルチモーダル評価は限定的、新規攻撃手法への追従に遅延

MITRE ATLASの活用

MITRE ATLASはサイバーセキュリティのATT&CKフレームワークをAI/MLに拡張したもの：

戦術（Tactics）: 偵察、リソース開発、初期アクセス、実行、永続化、回避、影響の7段階

技法（Techniques）: 各戦術に対応する具体的攻撃手法。LLMプロンプトインジェクション（AML.T0051）など

ケーススタディ: 実際のAI攻撃事例を収録。2023年のBing Chatジェイルブレイク、2024年のGemini間接注入など

活用方法: 脅威モデリング→攻撃シナリオ設計→防御策マッピング→ギャップ分析のサイクル

評価実施のベストプラクティス

ベースライン測定: デプロイ前にHarmBenchでASRを測定し、基準値を記録

継続的モニタリング: 本番環境での異常プロンプト検出（Lakera Guard、LLM Guard）

多言語テスト: 英語以外（特に日本語・中国語・アラビア語）でのフィルター有効性確認

マルチモーダル評価: 画像・音声入力経由の攻撃テスト（GPT-4V、Gemini対象）

コンプライアンスマッピング: EU AI Act要件とフレームワーク評価項目の対応表作成

Red/Blue チーム演習: 攻撃チーム（Red）と防御チーム（Blue）の定期的な対抗演習

よくある質問（FAQ）

Q1: どのフレームワークから始めるべきか？ A: まずOWASP LLM Top 10でリスクカテゴリを把握し、HarmBenchで定量的なASRを測定するのが推奨。MITRE ATLASは脅威モデリングの段階で活用する。

Q2: 評価にかかるコストと時間は？ A: HarmBenchの全プローブ実行で約$50-200（API使用料）、所要時間2-4時間。MITRE ATLASベースの包括的評価は専門コンサルタント含め$10,000-50,000が相場。

Q3: 自社開発モデルとAPI利用モデルで評価方法は異なるか？ A: API利用モデルはブラックボックステスト（入出力ベース）のみ。自社開発モデルではホワイトボックステスト（内部重み・活性化パターンの分析）も可能で、より詳細な脆弱性発見が期待できる。

まとめ

HarmBench・MITRE ATLAS・OWASP LLM Top 10が三大フレームワーク

ASR（攻撃成功率）5%以下が商用デプロイの目安

EU AI Act（2026年）で法的評価義務が発生

多言語・マルチモーダルの評価カバレッジ拡大が課題

継続的な評価（CI/CDパイプライン統合）が業界トレンド

メニュー