AIモデルの入出力を監視・制御し、有害・不適切・ポリシー違反のコンテンツを自動的に検出・ブロックする安全機構。モデル本体のアライメントを補完する推論時の防御層として機能する。
AI Guardrails(AIガードレール)とは、LLMやその他のAIモデルが生成するコンテンツを監視し、有害・不適切・ポリシー違反の出力を検出・阻止するための安全機構である。高速道路のガードレールがドライバーの逸脱を防ぐように、AIガードレールはモデルの出力が許容範囲を逸脱することを防ぐ。
モデル内部のアライメント(RLHF、DPO等)が「教育」に相当するならば、ガードレールは「法律と警察」に相当する外部制御メカニズムである。両者は相補的であり、どちらか一方だけでは十分な安全性を確保できない。
| 種類 | 配置タイミング | 対象 | 具体例 |
|---|---|---|---|
| Input Guardrail | ユーザー入力受信時 | プロンプト | プロンプトインジェクション検出、PII検出 |
| Output Guardrail | モデル出力生成後 | 応答テキスト | 有害コンテンツ検出、事実性チェック |
| Topical Guardrail | 入出力両方 | 会話の話題 | オフトピック検出、業務範囲外の質問拒否 |
| RAG Guardrail | 検索結果取得後 | 参照文書 | 無関係文書フィルタリング、機密情報マスキング |
NVIDIAが開発したオープンソースフレームワーク。Colangと呼ばれる独自のフロー定義言語で対話の安全ルールを宣言的に記述できる。LangChainなどのLLMアプリケーションフレームワークと統合が容易である。
PydanticベースのバリデーションとLLMによる意味的チェックを組み合わせたフレームワーク。出力フォーマットの強制(JSON Schema準拠など)と内容の安全性チェックを同時に実行できる。
MetaがリリースしたLlama 2ベースの安全性分類モデル。入力・出力の両方に対して6カテゴリ(暴力、性的、犯罪、個人情報、自殺自傷、武器)の有害性判定を実行する。ファインチューニングによるカスタマイズが可能。
Amazon Bedrock上で利用可能なマネージドガードレール。コンテンツフィルタ、拒否トピック、PII検出、ハルシネーション検出(Grounding Check)をAPI経由で設定できる。
ガードレールの一般的な実装パターンは以下の通り:
ガードレールの性能は以下の指標で評価される:
過剰検出率が高すぎるとユーザー体験を著しく損なうため、検出率との適切なバランス調整が重要である。
A1: いいえ、ガードレール単体では不十分です。ガードレールは推論時の防御層であり、巧妙なプロンプトインジェクションで回避される可能性があります。モデル内部のアライメント(RLHF/DPO等)との多層防御が推奨されます。
A2: 実装方式により大きく異なります。ルールベースでは数ミリ秒、分類器ベースで10-50ms、LLMベースで100ms-数秒の追加レイテンシが発生します。ストリーミング応答と並行して非同期でチェックし、問題検出時に応答を中断する設計が一般的です。
A3: 可能です。NeMo GuardrailsやGuardrails AIは拡張性が高く、業界固有のポリシー(金融規制、医療倫理など)に対応したカスタムルールを定義できます。Llama Guardはファインチューニングによりカスタムカテゴリの追加も可能です。