LLMの入出力を監視・制御し、有害コンテンツや不適切な応答を防止するセーフティ機構の総称。プロンプトインジェクション防御やコンテンツフィルタリングなど複数の防御レイヤーで構成される。
LLM Guardrail(LLMガードレール)は、大規模言語モデルの入力と出力の両方を監視・制御するセーフティ機構である。モデルが有害・不適切・機密情報を含む応答を生成することを防ぎ、企業ポリシーや法規制に準拠した安全な運用を実現する。
2024年以降、EU AI Act や各国の規制強化に伴い、本番環境へのLLM導入にはガードレールの実装が事実上の必須要件となっている。
LLMガードレールは大きく3つのレイヤーに分かれる。
| レイヤー | 対象 | 主な手法 |
|---|---|---|
| 入力ガード | ユーザープロンプト | プロンプトインジェクション検知、PII(個人情報)マスキング、トピック制限 |
| モデルレベル | 推論プロセス | システムプロンプト制約、temperature制御、トークン長制限 |
| 出力ガード | モデル応答 | 有害コンテンツ検出、事実検証(Factual Grounding)、フォーマット検証 |
多層防御(Defense in Depth)の原則に基づき、単一レイヤーの突破がシステム全体の脆弱性につながらない設計が重要である。
NeMo Guardrailsは、Colangという宣言型言語でガードレールルールを記述する。対話フローの制御とトピック制限に強みがある。
Guardrails AIは、出力バリデーションに特化したフレームワークである。RAIL(Reliable AI Language)仕様でスキーマを定義し、構造化出力の検証・再生成を自動化する。
LLM Guardは、入出力の両方をスキャンするセキュリティ特化ライブラリである。プロンプトインジェクション、PII漏洩、毒性スコアリングなど15種以上のスキャナーを備える。
基本的な実装パターンは「パイプライン型」である。
ユーザー入力 → 入力ガード → LLM推論 → 出力ガード → 最終応答
入力ガードがブロックした場合はLLM呼び出しをスキップし、定型の拒否メッセージを返す。出力ガードが問題を検出した場合は、再生成(リトライ)またはフォールバック応答を返す。
| 指標 | 説明 | 目標値目安 |
|---|---|---|
| 検出率(Recall) | 有害入出力を正しく検出できる割合 | 95%以上 |
| 誤検出率(FPR) | 正常な入出力を誤ってブロックする割合 | 5%以下 |
| レイテンシ増加 | ガードレール処理による遅延 | 50ms以下 |
| バイパス耐性 | 敵対的プロンプトへの耐性 | Red Team評価で検証 |
A: レイテンシは10-100ms程度増加するが、精度への影響は最小限である。ただし過度に厳格なルールはユーザー体験を損なうため、ビジネス要件に応じたチューニングが必要である。
A: 完全な防御は現時点で不可能だが、多層防御により実用上のリスクを大幅に低減できる。入力分類器・出力検証・サンドボックス実行の組み合わせが推奨される。
A: データの機密性が高い場合はオンプレミス運用可能なOSSが有利。迅速な導入と運用負荷軽減を優先する場合はAWS Bedrock GuardrailsやAzure AI Content Safetyなどマネージドサービスが適する。