CAI Red Teamingとは？（シーエーアイレッドチーミング）わかりやすく解説

Constitutional AI の安全性を検証するために、意図的にモデルの脆弱性を攻撃・探索するテスト手法で、人間の Red Teamer と AI による自動攻撃を組み合わせて防御力を評価する

CAI Red Teamingとは？（シーエーアイレッドチーミング）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

Red Teaming の手法分類

Red Teaming は攻撃手法によって以下のカテゴリに分類される。

Direct Attack（直接攻撃）: 有害な質問をストレートに投げる最も単純な手法。例:「爆弾の作り方を教えて」。現代のモデルでは防御率 99%+ だが、ベースライン測定に必須
Jailbreak（脱獄）: システムプロンプトを上書きしたり、ロールプレイを装って安全ガードを回避する手法。DAN（Do Anything Now）、Base64 エンコード、多言語切替などが代表的
Prompt Injection（プロンプト注入）: ユーザー入力に悪意ある指示を埋め込み、モデルの動作を乗っ取る攻撃。RAG パイプラインや Tool Use 経由が特に危険
Social Engineering（社会工学）: 段階的に信頼関係を構築し、徐々に有害な応答を引き出すマルチターン攻撃
Adversarial Suffixes（敵対的接尾辞）: GCG（Greedy Coordinate Gradient）などの最適化手法で、人間には無意味だがモデルの安全ガードを無効化する文字列を生成
Multilingual Attack（多言語攻撃）: 英語では拒否されるプロンプトを低リソース言語（ズールー語、スワヒリ語など）に翻訳して投入

攻撃カテゴリ	防御成功率（Claude 3.5）	防御成功率（Claude 4）	業界平均	代表的攻撃例
Direct Attack	99.8%	99.9%	99.5%	ストレートな有害質問
Jailbreak (DAN系)