LLMの入出力を監視・制御するセーフティレイヤー。プロンプトインジェクション検出・有害コンテンツフィルタリング・トピック制限等をモデル外部から適用し、本番環境での安全運用を実現する。
LLM Guardrails(LLMガードレールズ)は、大規模言語モデルの入力(プロンプト)と出力(レスポンス)を監視・制御するセーフティレイヤーである。モデル自体のアラインメントとは異なり、推論時に外部から適用されるフィルタリング・制約メカニズムであり、本番環境でのLLMアプリケーションの安全運用に不可欠な技術である。2026年現在、企業向けLLMアプリケーションの92%以上が何らかのガードレールを導入している(Gartner 2026 AI Safety Survey)。
ガードレールは入力側と出力側の2層で機能する:
| フレームワーク | 開発元 | ライセンス | 対応モデル | 特徴 | 月間DL数 |
|---|---|---|---|---|---|
| NeMo Guardrails |
| NVIDIA |
| Apache 2.0 |
| 全LLM |
| Colang DSL、対話フロー制御 |
| 180K |
| Guardrails AI | OSS | Apache 2.0 | 全LLM | Validator Hub、150+バリデーター | 350K |
| LangChain Guards | LangChain | MIT | 全LLM | LangChainエコシステム統合 | 280K |
| Llama Guard 3 | Meta | Llama License | Llama系 | 安全分類器、多言語対応 | 220K |
| Azure AI Content Safety | Microsoft | 商用 | Azure OpenAI | マルチモーダル、低レイテンシ | N/A |
典型的なガードレール実装の構成:
ユーザー入力 → [入力ガードレール] → LLM → [出力ガードレール] → ユーザーへの応答
| |
v v
ブロック/修正 ブロック/修正/再生成
ログ記録 ログ記録
Q1: ガードレールとモデルのアラインメントはどう違うのか? A: アラインメントはモデルの重み自体を調整して安全な出力を学習させる手法(訓練時)。ガードレールはモデル外部から入出力を監視・制御する仕組み(推論時)。両方を併用することで多層防御を実現する。
Q2: ガードレールの誤検知(過剰ブロック)はどう対処するか? A: 3つの対策がある。(1) ホワイトリスト方式で業務上必要なトピック・表現を許可、(2) 閾値調整で検出感度を業務要件に合わせる、(3) Human-in-the-Loopでブロック事例をレビューし継続改善。
Q3: オープンソースのガードレールで商用利用は可能か? A: NeMo Guardrails(Apache 2.0)・Guardrails AI(Apache 2.0)は商用利用完全自由。Llama Guard 3はMeta Llama Licenseで月間アクティブユーザー7億人未満なら無料。Azure AI Content Safetyは$1/1,000リクエストの従量課金。