Constitutional AI の安全性を検証するために、意図的にモデルの脆弱性を攻撃・探索するテスト手法で、人間の Red Teamer と AI による自動攻撃を組み合わせて防御力を評価する
CAI Red Teaming は、Constitutional AI で訓練されたモデルの安全性を実戦的に検証するテスト手法である。セキュリティ分野の「レッドチーム」概念を AI 安全性に応用したもので、専門家チームが意図的にモデルの脆弱性を突く攻撃プロンプトを作成し、防御の穴を発見する。Anthropic は 2023 年以降、社内 Red Teaming チームに加え、外部セキュリティ企業や学術機関との連携で Red Teaming を実施している。
Red Teaming は攻撃手法によって以下のカテゴリに分類される。
| 攻撃カテゴリ | 防御成功率(Claude 3.5) | 防御成功率(Claude 4) | 業界平均 | 代表的攻撃例 |
|---|---|---|---|---|
| Direct Attack | 99.8% | 99.9% | 99.5% | ストレートな有害質問 |
| Jailbreak (DAN系) |
| 96.2% |
| 98.5% |
| 92% |
| DAN 13.0, Developer Mode |
| Prompt Injection | 94.1% | 97.3% | 88% | Ignore previous instructions |
| Social Engineering | 91.5% | 95.8% | 85% | 段階的信頼構築+有害要求 |
| Adversarial Suffixes | 97.8% | 99.1% | 90% | GCG 最適化攻撃 |
| Multilingual | 93.4% | 97.1% | 82% | 低リソース言語での攻撃 |
2024 年以降、人間の Red Teamer だけでなく AI を使った自動攻撃生成が主流になっている。
Q1: Red Teaming はどのタイミングで実施されますか? A: モデルの訓練完了後(デプロイ前)に集中的に実施する「プリデプロイメント Red Teaming」と、デプロイ後に継続的に実施する「ポストデプロイメント Red Teaming」の 2 フェーズがある。Anthropic は両方を実施しており、デプロイ後も週次でテストを更新している。
Q2: Red Teaming で見つかった脆弱性はすぐに修正されますか? A: 重大度による。児童安全や大量破壊兵器関連の脆弱性は即座にシステムプロンプトレベルで緊急対応し、次回の CAI 訓練サイクル(通常 1-3 ヶ月間隔)で根本修正する。軽微な脆弱性は次回訓練サイクルでまとめて対応する。
Q3: 外部の研究者も Red Teaming に参加できますか? A: Anthropic はバグバウンティプログラムを通じて外部からの脆弱性報告を受け付けている。また、学術機関との共同 Red Teaming プログラムを定期的に実施しており、2024 年には 15 大学と共同テストを行った。