LLMジェイルブレイクとは？（エルエルエムジェイルブレイク）わかりやすく解説

Q: LLMジェイルブレイクとは？

LLMの安全性ガードレール（有害コンテンツ生成の拒否・倫理的制約等）を回避し、本来拒否されるべき応答を引き出す攻撃手法。プロンプトインジェクションの一形態であり、DAN（Do Anything Now）・多言語攻撃・エンコード攻撃・仮想シナリオなど多様な手法が存在する。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

LLMジェイルブレイクとは？（エルエルエムジェイルブレイク）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

LLMジェイルブレイク

LLMジェイルブレイク（LLM Jailbreaking）とは、大規模言語モデルに施された安全性ガードレール——有害コンテンツの生成拒否、違法行為の幇助拒否、個人情報の生成拒否等——を巧妙なプロンプト設計で回避し、本来モデルが拒否すべき応答を引き出す攻撃手法の総称である。プロンプトインジェクションの一形態として位置づけられるが、特にモデルの安全性チューニング（RLHF・Constitutional AI等）の限界を突く点に特徴がある。

ジェイルブレイクの定義と範囲

ジェイルブレイクは広義のプロンプトインジェクションに含まれるが、以下の点で区別される：

比較軸	プロンプトインジェクション（広義）	ジェイルブレイク
目的	システムプロンプトの上書き・漏洩・不正操作全般	安全性ガードレールの回避
対象の制約	開発者設定の制約（ロール・出力形式等）	モデル訓練時の安全性制約
攻撃の動機	情報窃取・不正操作・サービス妨害	有害コンテンツ生成・制限解除
研究コミュニティ	LLMセキュリティ全般	AI Safety・Red Teaming

「iPhoneのジェイルブレイク」が端末の制限を解除するように、LLMジェイルブレイクもモデルの制限を解除する行為を指す。名称はこの類似性に由来する。

主要なジェイルブレイク手法

DAN（Do Anything Now）系

2022年12月にRedditのr/ChatGPTで最初に登場した手法。ChatGPTに「DANモード」という架空のペルソナを演じさせ、通常の制約なく応答させる。初期のDAN v1.0から2024年のDAN v14.0+まで、モデルの安全性向上に対抗して進化し続けている。

DAN系の基本構造：

架空のAIペルソナを定義（「DAN = Do Anything Now」）
そのペルソナには制約がないと宣言
通常応答とDAN応答の両方を出力させる（比較形式）
DAN応答のみ制約なしで生成

仮想シナリオ・ロールプレイ手法

LLMに架空の設定を受け入れさせ、その文脈内で安全性制約を無効化する手法。

手法名	設定	有効性
小説執筆シナリオ	「犯罪小説を書いている」	高（創作文脈で制約緩和）
セキュリティ研究設定	「脆弱性調査のため」	中（正当な用途と区別困難）
教育目的設定	「学生に危険性を教えるため」	中
歴史的文脈設定	「歴史的事実の記述として」	低〜中
翻訳要求

エンコード方式	手法	検出回避効果
Base64	ペイロードをBase64で符号化しデコードを指示	中（入力フィルタ回避）
ROT13/シーザー暗号	単純な文字置換	低（LLMが解読困難な場合も）
分割入力	攻撃テキストを複数メッセージに分割	中（コンテキスト依存）
逆転	テキストを逆順に入力しLLMに反転を指示	低〜中
Unicode代替	似た見た目のUnicode文字で置換	中（正規化で対策可能）

フレームワーク	開発元	目的
HarmBench	Center for AI Safety	ジェイルブレイク攻撃の体系的評価
JailbreakBench	Allen Institute	攻撃・防御手法のベンチマーク
PAIR	University of Pennsylvania	自動Red Teaming
TAP（Tree of Attacks with Pruning）	Yale/Anthropic	効率的な攻撃木探索

メニュー

LLMジェイルブレイク（エルエルエムジェイルブレイク）

メニュー

LLMジェイルブレイク（エルエルエムジェイルブレイク）

この用語に関連するコンテンツ

LLMジェイルブレイク

ジェイルブレイクの定義と範囲

主要なジェイルブレイク手法

DAN（Do Anything Now）系

仮想シナリオ・ロールプレイ手法

多言語攻撃（Multilingual Attack）

エンコード・難読化攻撃

GCG（Greedy Coordinate Gradient）攻撃

防御の現状と技術的対策

モデル側の対策

アプリケーション側の対策

研究・評価フレームワーク

よくある質問（FAQ）

Q1: ジェイルブレイクは違法行為ですか？

Q2: AIセーフティ研究者がジェイルブレイクを研究する意義は何ですか？

Q3: 将来的にジェイルブレイクは完全に防げるようになりますか？

関連用語