Meta社が開発したLLM入出力安全分類モデル。ユーザーのプロンプトとモデルの応答を検査し、有害カテゴリ(暴力、性的コンテンツ、犯罪助長等)に該当するかを判定する。Llama 2/3ベースでファインチューニングされ、カスタムポリシーへの適応が容易。プロダクション環境でのLLMガードレールとして広く採用。
Llama Guard(ラマガード)は、Meta社が開発したLLM入出力安全分類モデルである。Purple Llamaプロジェクトの一環として2023年12月に公開された。ユーザーのプロンプト(入力)とLLMの応答(出力)の両方を検査し、事前定義された有害カテゴリに該当するかどうかを判定する。LLMアプリケーションのプロダクション環境における安全性フィルタリングの標準ツールとして広く採用されている。
| バージョン | 基盤モデル | 公開時期 | 特徴 |
|---|---|---|---|
| Llama Guard 1 | Llama 2-7B | 2023年12月 | 初版。6カテゴリの安全分類 |
| Llama Guard 2 | Llama 3-8B | 2024年4月 | 11カテゴリに拡張、多言語対応強化 |
| Llama Guard 3 | Llama 3.1-8B/1B | 2024年7月 | 推論最適化、1Bパラメータ軽量版追加 |
| カテゴリID | カテゴリ名 | 説明 |
|---|---|---|
| S1 | 暴力・犯罪 | 暴力行為、テロリズム、組織犯罪の助長 |
| S2 | 非暴力犯罪 | 詐欺、ハッキング、薬物取引の支援 |
| S3 | 性的コンテンツ | 明示的な性的コンテンツ、児童搾取 |
| S4 | 未成年者の安全 | 未成年者へのグルーミング、搾取 |
| S5 | 自傷行為 | 自殺、摂食障害、自傷の奨励 |
| S6 | 武器・化学物質 | 武器製造、化学・生物・核兵器関連情報 |
| S7 | 個人情報 | PII漏洩、ドクシング、プライバシー侵害 |
| S8 | 知的財産 | 著作権侵害、商標権侵害 |
| S9 | 不正確な情報 | 選挙・医療・法律に関する意図的な誤情報 |
| S10 | ヘイトスピーチ | 人種・性別・宗教等に基づく差別的表現 |
| S11 | 選挙介入 | 投票プロセスの妨害、選挙操作 |
[ユーザープロンプト] → Llama Guard → safe / unsafe + カテゴリ
ユーザーのプロンプトが有害なリクエスト(例: 爆弾の作り方、個人情報の特定)を含む場合、unsafe判定とともに該当カテゴリIDを返す。
[プロンプト + LLM応答] → Llama Guard → safe / unsafe + カテゴリ
LLMの応答が安全ポリシーに違反していないかを検証する。入力が安全でも、モデルが意図せず有害な情報を含む応答を生成するケースを捕捉する。
Llama Guardの大きな特徴は、安全分類カテゴリをシステムプロンプトで動的にカスタマイズできる点。業界固有の規制要件に対応可能。
| 業種 | カスタムカテゴリ例 |
|---|---|
| 金融 | 投資助言の禁止、インサイダー情報 |
| 医療 | 診断行為の禁止、処方薬推奨の制限 |
| 教育 | 年齢不適切コンテンツ、学術不正 |
| 法務 | 法的助言の免責、管轄外の法解釈 |
最も一般的な統合パターン。ユーザーのプロンプトとLLMの応答の両方をLlama Guardでフィルタリングする。
レイテンシを優先する場合。プロンプトインジェクション対策に特化。
応答は即座に返し、バックグラウンドでLlama Guardが監査。違反検出時にログ記録・アラート発報する。
| 指標 | Llama Guard 3 (8B) | Llama Guard 3 (1B) |
|---|---|---|
| 安全分類精度(F1) | 0.939 | 0.891 |
| レイテンシ(A100) | 約50ms | 約15ms |
| メモリ使用量 | 約16GB | 約4GB |
| スループット | 約200 req/s | 約600 req/s |
OpenAIのModeration API、Google Cloud Natural Language API、Microsoft Azure Content Safety、NVIDIA NeMo Guardrailsなどがある。Llama Guardの特徴はオープンソースでカスタマイズ可能な点。
Llama Guard 3(8B)のF1スコアは0.939。ただしadversarial attack(敵対的攻撃)に対しては精度が低下する場合があり、多層防御(Llama Guard + システムプロンプト + アプリケーション層フィルタ)が推奨される。
Llama Guard 2以降は多言語対応が強化されているが、英語が主要な訓練データ。日本語の安全分類精度は英語より低い傾向がある。日本語特化のファインチューニングや、多言語翻訳前処理との組み合わせが実践では推奨される。