LLM Guardとは、LLMアプリケーションの入力と出力を検証・フィルタリングするためのオープンソースツールキットおよびガードレールフレームワークの総称である。代表的なプロジェクトとして、Protect AIのLLM Guard、NVIDIA NeMo Guardrails、Meta Llama Guard/Prompt Guardがあり、プロンプトインジェクション検出、有害コンテンツフィルタリング、PII（個人情報）検出、トピック制限などの機能をスキャナーパイプラインとして提供する。

LLM Guardとは？（エルエルエムガード）わかりやすく解説

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

LLM Guardとは？（エルエルエムガード）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

主要なLLM Guardフレームワーク

Protect AI LLM Guard

Protect AI（旧laiyer-ai）が開発するオープンソースのLLMガードレールライブラリ。Pythonで実装され、入力スキャナーと出力スキャナーの2段構成でLLMの入出力を保護する。Apache 2.0ライセンスで公開されており、商用利用が可能である。

主要な機能として、プロンプトインジェクション検出（DeBERTa-v3ベースのMLモデル）、PII検出・マスキング（正規表現+NERモデル）、有害性スコアリング、トピック制限、言語検出、不可視文字検出、コード検出、URLフィルタリングなどの20以上のスキャナーを提供する。

NVIDIA NeMo Guardrails

NVIDIAが開発するLLMガードレールフレームワーク。Colangという独自のドメイン固有言語（DSL）を使って対話フローとガードレールを定義する。LLM自体を使った「自己チェック」機構が特徴で、別のLLM呼び出しにより入出力の安全性を検証する。

NeMo Guardrailsの独自性は「プログラマブルガードレール」にある。開発者はColangファイルにルール（flows）を記述し、LLMの動作を細かく制御できる。入力チェック、出力チェック、トピック制限、ファクトチェック、ハルシネーション検出などをルールとして定義可能である。

Meta Llama Guard / Prompt Guard

MetaがLlama 3とともに公開した安全性分類モデル群。Llama Guardはコンテンツの安全性をカテゴリ別に評価するモデルで、Prompt Guardはプロンプトインジェクションの検出に特化したモデルである。

Llama Guard 3は、MLCommons AI Safety Taxonomyに準拠した13カテゴリの安全性評価を行う。各カテゴリ（暴力、性的コンテンツ、犯罪活動、個人情報など）に対してsafe/unsafeのラベルを付与し、該当するカテゴリコードを返す。

Prompt Guardは、mDeBERTa-v3をベースにプロンプトインジェクション検出にファインチューニングされたモデルで、direct injectionとindirect injection（jailbreak）の2種類の攻撃を分類する。多言語対応であり、英語以外の言語での攻撃検出もカバーする。

フレームワーク	開発元	ライセンス	主要機能	LLM依存	カスタマイズ性
LLM Guard	Protect AI	Apache 2.0	スキャナーパイプライン

スキャナー名	検出対象	手法	レイテンシ
PromptInjection	プロンプトインジェクション	DeBERTa分類器	~15ms
Toxicity	有害・攻撃的コンテンツ	毒性分類モデル	~10ms
PIIDetection	個人情報（メール、電話、住所）	正規表現 + NER	~5ms
BanTopics	禁止トピック	ゼロショット分類	~20ms
InvisibleText	不可視文字・ゼロ幅文字	Unicode分析	<1ms
Language	言語制限	言語検出モデル	~5ms
CodeDetection	コードスニペット	正規表現 + ヒューリスティック	~2ms
Regex	カスタムパターン	正規表現	<1ms
URLReachability	悪意あるURL	DNS解決 + ブロックリスト	~50ms
Secrets	APIキー・パスワード	正規表現パターン	~2ms

スキャナー名	検出対象	手法	レイテンシ
Relevance	質問との関連性低下	類似度計算	~10ms
Sensitive	機密情報の漏洩	パターン + NER	~5ms
Factual	事実と異なる情報	知識ベース照合	~100ms
Bias	偏見・差別的表現	バイアス分類器	~15ms
Malicious URLs	悪意あるURLの生成	ブロックリスト	~5ms
NoRefusal	不適切な拒否	テンプレートマッチ	~2ms

フレームワーク	全スキャナー実行時間	メモリ使用量	スループット
LLM Guard（全スキャナー）	~100ms	~2GB	~10 req/s
LLM Guard（軽量構成）	~30ms	~500MB	~30 req/s
NeMo Guardrails	~200ms（LLM呼び出し含む）	~1GB	~5 req/s
Llama Guard 3（GPU）	~50ms	~8GB VRAM	~20 req/s
Prompt Guard	~20ms	~1GB	~50 req/s

メニュー

LLM Guard（エルエルエムガード）

メニュー

LLM Guard（エルエルエムガード）

この用語に関連するコンテンツ

LLM Guardの概要

主要なLLM Guardフレームワーク

Protect AI LLM Guard

NVIDIA NeMo Guardrails

Meta Llama Guard / Prompt Guard

スキャナーパイプラインのアーキテクチャ

入力スキャナー

出力スキャナー

デプロイメントパターン

インラインパターン

サイドカーパターン

パフォーマンスベンチマーク

導入のベストプラクティス

よくある質問

Q: LLM GuardとNeMo Guardrailsのどちらを選ぶべきですか？

Q: Llama GuardはClaude APIやGPT-4と組み合わせられますか？

Q: ガードレールの導入によるレイテンシ増加はどの程度ですか？

Q: オープンソースのガードレールだけで商用利用できますか？

関連用語