LLMの安全性ガードレール(有害コンテンツ生成の拒否・倫理的制約等)を回避し、本来拒否されるべき応答を引き出す攻撃手法。プロンプトインジェクションの一形態であり、DAN(Do Anything Now)・多言語攻撃・エンコード攻撃・仮想シナリオなど多様な手法が存在する。
LLMジェイルブレイク(LLM Jailbreaking)とは、大規模言語モデルに施された安全性ガードレール——有害コンテンツの生成拒否、違法行為の幇助拒否、個人情報の生成拒否等——を巧妙なプロンプト設計で回避し、本来モデルが拒否すべき応答を引き出す攻撃手法の総称である。プロンプトインジェクションの一形態として位置づけられるが、特にモデルの安全性チューニング(RLHF・Constitutional AI等)の限界を突く点に特徴がある。
ジェイルブレイクは広義のプロンプトインジェクションに含まれるが、以下の点で区別される:
| 比較軸 | プロンプトインジェクション(広義) | ジェイルブレイク |
|---|---|---|
| 目的 | システムプロンプトの上書き・漏洩・不正操作全般 | 安全性ガードレールの回避 |
| 対象の制約 | 開発者設定の制約(ロール・出力形式等) | モデル訓練時の安全性制約 |
| 攻撃の動機 | 情報窃取・不正操作・サービス妨害 | 有害コンテンツ生成・制限解除 |
| 研究コミュニティ | LLMセキュリティ全般 | AI Safety・Red Teaming |
「iPhoneのジェイルブレイク」が端末の制限を解除するように、LLMジェイルブレイクもモデルの制限を解除する行為を指す。名称はこの類似性に由来する。
2022年12月にRedditのr/ChatGPTで最初に登場した手法。ChatGPTに「DANモード」という架空のペルソナを演じさせ、通常の制約なく応答させる。初期のDAN v1.0から2024年のDAN v14.0+まで、モデルの安全性向上に対抗して進化し続けている。
DAN系の基本構造:
LLMに架空の設定を受け入れさせ、その文脈内で安全性制約を無効化する手法。
| 手法名 | 設定 | 有効性 |
|---|---|---|
| 小説執筆シナリオ | 「犯罪小説を書いている」 | 高(創作文脈で制約緩和) |
| セキュリティ研究設定 | 「脆弱性調査のため」 | 中(正当な用途と区別困難) |
| 教育目的設定 | 「学生に危険性を教えるため」 | 中 |
| 歴史的文脈設定 | 「歴史的事実の記述として」 | 低〜中 |
| 翻訳要求 |
| 「この外国語テキストを翻訳して」 |
| 中(間接的に有害コンテンツ生成) |
安全性チューニングが英語中心で行われている傾向を悪用し、低リソース言語(ズールー語・スコットランドゲール語等)でプロンプトを構成する手法。2023年にBrown大学のDeng et al.が論文「Multilingual Jailbreak Challenges in Large Language Models」で体系的に分析した。
GPT-4の安全性フィルタ回避率(Deng et al. 2023の報告値):
2025-2026年のモデルでは多言語安全性が改善されているが、言語間の防御力格差は依然として存在する。
攻撃ペイロードをBase64・ROT13・Morseコード・絵文字・アスキーアートなどに変換し、テキストベースの安全性フィルタを回避する手法。
| エンコード方式 | 手法 | 検出回避効果 |
|---|---|---|
| Base64 | ペイロードをBase64で符号化しデコードを指示 | 中(入力フィルタ回避) |
| ROT13/シーザー暗号 | 単純な文字置換 | 低(LLMが解読困難な場合も) |
| 分割入力 | 攻撃テキストを複数メッセージに分割 | 中(コンテキスト依存) |
| 逆転 | テキストを逆順に入力しLLMに反転を指示 | 低〜中 |
| Unicode代替 | 似た見た目のUnicode文字で置換 | 中(正規化で対策可能) |
2023年にCarnegie Mellon大学のZou et al.が発表した自動化手法。勾配ベースの最適化でジェイルブレイク用のサフィックス(意味不明な文字列)を自動生成する。人間が読んでも意味をなさない文字列がモデルの安全性制約を回避することが示され、LLM安全性研究に大きな衝撃を与えた。
| フレームワーク | 開発元 | 目的 |
|---|---|---|
| HarmBench | Center for AI Safety | ジェイルブレイク攻撃の体系的評価 |
| JailbreakBench | Allen Institute | 攻撃・防御手法のベンチマーク |
| PAIR | University of Pennsylvania | 自動Red Teaming |
| TAP(Tree of Attacks with Pruning) | Yale/Anthropic | 効率的な攻撃木探索 |
法的評価は法域と目的に依存する。セキュリティ研究・学術研究・バグバウンティプログラムの範囲内であれば一般的に許容される。しかし、ジェイルブレイクで得た有害コンテンツを実際に悪用した場合は、そのコンテンツの内容に応じた法的責任が問われる。多くのLLMサービスの利用規約ではジェイルブレイクの試行自体が禁止されている。
攻撃手法を理解しなければ防御策を設計できないため、攻撃研究はAI安全性向上に不可欠である。多くの主要AI企業(Anthropic・OpenAI・Google DeepMind・Meta)は社内Red Teamを持ち、自社モデルのジェイルブレイク耐性を継続的に評価している。学術コミュニティでもHarmBenchやJailbreakBenchなどの標準化された評価基盤が整備され、攻撃・防御の双方の研究が透明性をもって進められている。
2026年時点の学術的コンセンサスでは、完全防御は極めて困難とされている。GCG攻撃のような勾配ベースの自動最適化手法は、モデルのパラメータ空間に存在する脆弱な領域を体系的に探索できる。モデルの表現力(自然言語の柔軟な生成能力)と安全性制約は根本的にトレードオフの関係にあり、表現力を維持しつつ全ての攻撃を防ぐことは理論的にも困難である。現実的なアプローチは、多層防御でリスクを許容可能な水準に低減することである。