LLMジェイルブレイクとは、大規模言語モデルに設定された安全ガードレールやシステムプロンプトの制約を巧妙なプロンプト操作で回避し、本来拒否されるべき有害・危険なコンテンツを出力させる攻撃手法の総称である。
LLMジェイルブレイクとは、大規模言語モデル(LLM)の安全制約を意図的に回避して有害コンテンツを生成させる攻撃手法である。iPhoneのジェイルブレイク(脱獄)に由来する用語で、2023年のChatGPT普及とともにセキュリティ研究の重要テーマとなった。
LLMのジェイルブレイクは、モデルのアラインメント(安全整合性)を突破する攻撃である。GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Proなど主要モデルはRLHF(人間フィードバックからの強化学習)やConstitutional AIにより安全ガードレールが設定されているが、攻撃者は様々な手法でこれらを回避する。
2024年にはUniversal Transferable Attack(GCG攻撃)が発表され、特定のサフィックス文字列を追加するだけで複数モデルのガードレールを同時突破できることが実証された。2025年にはマルチモーダルジェイルブレイク(画像内テキストによるフィルター回避)が新たな脅威として注目されている。
| 手法名 | 分類 | 成功率(2025年基準) | 対策難易度 | 概要 |
|---|---|---|---|---|
| DAN (Do Anything Now) | ロールプレイ | 5-15% | 低 | モデルに制約のないペルソナを演じさせる |
| GCG Attack | 勾配ベース | 30-60% | 高 | 最適化されたサフィックス文字列で安全フィルター回避 |
| PAIR | 自動反復 | 40-70% | 高 | 攻撃LLMが防御LLMを自動的に突破 |
| AutoDAN | 遺伝的アルゴリズム | 35-55% | 高 | 進化計算で最適ジェイルブレイクプロンプト生成 |
| 多言語バイパス | 言語切替 | 20-40% | 中 | 低リソース言語でフィルター回避 |
| Base64エンコード | 難読化 | 10-25% | 低 | 有害テキストをエンコードして入力 |
| Few-shot Jailbreak | 文脈操作 | 15-30% | 中 | 有害な例文を数ショット提示して誘導 |
ジェイルブレイクが成功する根本原因は、LLMの安全アラインメントが「表層的」であることに起因する:
主要な防御アプローチ:
Q1: ジェイルブレイクは違法か? A: 研究目的のジェイルブレイクは多くの法域で合法だが、生成された有害コンテンツの配布・悪用は違法となりうる。EU AI Act(2026年施行)では、高リスクAIへの無許可の安全テストに制限がかかる可能性がある。
Q2: 完全にジェイルブレイク耐性のあるLLMは作れるか? A: 現時点では不可能とされている。2025年のICLR論文「On the Impossibility of Perfectly Aligned LLMs」で、汎用LLMが全てのジェイルブレイクに耐性を持つことは理論的に不可能であることが証明された。多層防御(Defense in Depth)が現実的アプローチ。
Q3: ジェイルブレイク報告でバグバウンティは得られるか? A: OpenAIは最大$25,000、Googleは最大$31,337のバウンティプログラムを運営している。Anthropicは2024年からHackerOne経由で受付を開始し、クリティカルな脆弱性に$10,000以上を支払っている。