Meta社が開発したLLM入出力安全分類モデル。ユーザーのプロンプトとモデルの応答を検査し、有害カテゴリ（暴力、性的コンテンツ、犯罪助長等）に該当するかを判定する。Llama 2/3ベースでファインチューニングされ、カスタムポリシーへの適応が容易。プロダクション環境でのLLMガードレールとして広く採用。

Llama Guardとは？（ラマガード）わかりやすく解説

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Llama Guardとは？（ラマガード）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

バージョンの進化

バージョン	基盤モデル	公開時期	特徴
Llama Guard 1	Llama 2-7B	2023年12月	初版。6カテゴリの安全分類
Llama Guard 2	Llama 3-8B	2024年4月	11カテゴリに拡張、多言語対応強化
Llama Guard 3	Llama 3.1-8B/1B	2024年7月	推論最適化、1Bパラメータ軽量版追加

安全分類カテゴリ（Llama Guard 3）

カテゴリID	カテゴリ名	説明
S1	暴力・犯罪	暴力行為、テロリズム、組織犯罪の助長
S2	非暴力犯罪	詐欺、ハッキング、薬物取引の支援
S3	性的コンテンツ	明示的な性的コンテンツ、児童搾取
S4	未成年者の安全	未成年者へのグルーミング、搾取
S5	自傷行為	自殺、摂食障害、自傷の奨励
S6	武器・化学物質	武器製造、化学・生物・核兵器関連情報
S7	個人情報	PII漏洩、ドクシング、プライバシー侵害
S8	知的財産	著作権侵害、商標権侵害
S9	不正確な情報	選挙・医療・法律に関する意図的な誤情報
S10	ヘイトスピーチ	人種・性別・宗教等に基づく差別的表現
S11	選挙介入	投票プロセスの妨害、選挙操作

動作メカニズム

入力（プロンプト）分類

[ユーザープロンプト] → Llama Guard → safe / unsafe + カテゴリ

ユーザーのプロンプトが有害なリクエスト（例: 爆弾の作り方、個人情報の特定）を含む場合、unsafe判定とともに該当カテゴリIDを返す。

出力（レスポンス）分類

[プロンプト + LLM応答] → Llama Guard → safe / unsafe + カテゴリ

LLMの応答が安全ポリシーに違反していないかを検証する。入力が安全でも、モデルが意図せず有害な情報を含む応答を生成するケースを捕捉する。

カスタムポリシーの適用

Llama Guardの大きな特徴は、安全分類カテゴリをシステムプロンプトで動的にカスタマイズできる点。業界固有の規制要件に対応可能。

業種	カスタムカテゴリ例
金融	投資助言の禁止、インサイダー情報
医療	診断行為の禁止、処方薬推奨の制限
教育	年齢不適切コンテンツ、学術不正
法務	法的助言の免責、管轄外の法解釈

プロダクション統合パターン

パターン1: 入出力ダブルチェック

最も一般的な統合パターン。ユーザーのプロンプトとLLMの応答の両方をLlama Guardでフィルタリングする。

パターン2: 入力のみフィルタリング

レイテンシを優先する場合。プロンプトインジェクション対策に特化。

パターン3: 非同期出力監査

応答は即座に返し、バックグラウンドでLlama Guardが監査。違反検出時にログ記録・アラート発報する。

性能指標

指標	Llama Guard 3 (8B)	Llama Guard 3 (1B)
安全分類精度（F1）	0.939	0.891
レイテンシ（A100）	約50ms	約15ms
メモリ使用量	約16GB	約4GB
スループット	約200 req/s	約600 req/s

FAQ

Q1: Llama Guard以外の安全分類モデルは？

OpenAIのModeration API、Google Cloud Natural Language API、Microsoft Azure Content Safety、NVIDIA NeMo Guardrailsなどがある。Llama Guardの特徴はオープンソースでカスタマイズ可能な点。

Q2: Llama Guard自体の精度はどの程度か？

Llama Guard 3（8B）のF1スコアは0.939。ただしadversarial attack（敵対的攻撃）に対しては精度が低下する場合があり、多層防御（Llama Guard + システムプロンプト + アプリケーション層フィルタ）が推奨される。

Q3: 日本語コンテンツに対応しているか？

Llama Guard 2以降は多言語対応が強化されているが、英語が主要な訓練データ。日本語の安全分類精度は英語より低い傾向がある。日本語特化のファインチューニングや、多言語翻訳前処理との組み合わせが実践では推奨される。

メニュー

Llama Guard（ラマガード）

この用語に関連するコンテンツ

メニュー

Llama Guard（ラマガード）

この用語に関連するコンテンツ