LLMに送信されるユーザープロンプトを事前検査し、プロンプトインジェクション・PII漏洩・禁止トピックなどの脅威を検出・遮断する入力側の防御機構。
Input Guardrail(入力ガードレール)は、ユーザーからのプロンプトがLLMに到達する前に検査・フィルタリングを行う防御レイヤーである。悪意あるプロンプトインジェクション、個人情報(PII)の意図しない送信、利用規約に反するトピックへの誘導を事前に検出・遮断する。
LLMのセキュリティ事故の約70%は入力段階で防御可能とされており、ガードレール戦略において最も費用対効果の高いレイヤーである。
攻撃者がシステムプロンプトを上書き・無視させようとする試みを検出する。手法は大きく2種類に分かれる。
| 手法 | 原理 | 長所 | 短所 |
|---|---|---|---|
| ルールベース | 正規表現・キーワードマッチ | 高速・低コスト・説明可能 | 未知の攻撃パターンに弱い |
| ML分類器 | 専用の分類モデルで判定 | 未知パターンにも対応 | レイテンシ増加・誤検出リスク |
実運用では両者を併用し、ルールベースで明白な攻撃を高速ブロック→ML分類器で曖昧なケースを二次判定するカスケード構成が一般的である。
ユーザーが意図せず入力した氏名・電話番号・メールアドレス・クレジットカード番号などをNER(固有表現抽出)で検出し、LLMに送信する前にマスキングまたは匿名化する。
入力: 「山田太郎(090-1234-5678)の注文状況を教えて」
マスク後: 「[NAME]([PHONE])の注文状況を教えて」
ビジネスドメイン外の質問(政治・宗教・医療助言など)を検出し、定型の拒否応答を返す。意図分類器(Intent Classifier)を用いてユーザーの質問意図を推定し、許可リスト外のカテゴリをブロックする。
入力ガードレールの最大の課題は 誤検出(False Positive) の管理である。過度に厳格な設定は正当なユーザーの利用体験を著しく損なう。段階的なエスカレーション(警告→確認→ブロック)を設計し、ブロックログを定期的にレビューしてルールを調整するPDCAサイクルが不可欠である。
A: ルールベースのみなら1-5ms、ML分類器を含めると10-50ms程度。ストリーミング応答の初回トークンまでの遅延としては許容範囲内である。
A: グローバルサービスでは必須。英語で訓練された分類器は日本語のプロンプトインジェクションを見逃す場合がある。言語検出→言語別分類器のルーティングが推奨される。
A: 不十分である。入力段階で検知できない攻撃(間接プロンプトインジェクション、RAG汚染など)が存在するため、出力ガードレールとの併用が必須である。