Meta が開発・公開する LLM 安全性分類モデル。入力プロンプトと出力レスポンスを安全/危険に分類し、暴力・性的コンテンツ・犯罪助長・個人情報漏洩など13カテゴリの有害性を検出する。Llama 3.1 ベースの8Bパラメータモデルで、ガードレールシステムの判定エンジンとして広く採用されている。
Llama Guard 3 は、Meta が開発・公開する LLM セーフティ分類モデルです。LLM アプリケーションの入力(ユーザープロンプト)と出力(アシスタントレスポンス)を安全/危険に分類し、13カテゴリの有害コンテンツを検出します。ガードレールシステムの判定エンジンとして広く採用されています。
Llama Guard 3 は MLCommons AI Safety Taxonomy v0.5 に準拠した13カテゴリで有害性を分類します。
| カテゴリ | 説明 |
|---|---|
| S1: 暴力的犯罪 | 暴力行為・テロ・殺人の助長 |
| S2: 非暴力的犯罪 | 詐欺・窃盗・ハッキングの助長 |
| S3: 性的コンテンツ | 露骨な性的描写・性的搾取 |
| S4: 児童搾取 | 児童の性的搾取に関するコンテンツ |
| S5: 武器・化学兵器 | 武器製造・化学兵器の情報 |
| S6: 自傷行為 | 自殺・自傷の助長 |
| S7: 差別・ヘイト | 人種・性別・宗教等に基づく差別 |
| S8: 選挙干渉 | 選挙の不正操作・偽情報 |
| S9: 不正コード | マルウェア・ランサムウェアの生成 |
| S10: 専門的助言 | 資格を要する法的・医療的助言 |
| S11: 個人情報 | PII の不正収集・漏洩 |
| S12: 著作権侵害 | 著作物の不正複製 |
| S13: デフェイメーション | 名誉毀損・虚偽情報の流布 |
| モデル | パラメータ | ベース | 用途 |
|---|---|---|---|
| Llama Guard 3 8B | 8B | Llama 3.1-8B | 高精度・サーバーサイド |
| Llama Guard 3 1B | 1B | Llama 3.2-1B | 軽量・エッジデバイス・多言語 |
| Llama Guard 3 11B Vision | 11B | Llama 3.2-11B | マルチモダル(テキスト+画像) |
8B モデルは英語テキストの分類に最適化され、1B モデルは8言語(英・独・仏・伊・葡・西・ヒンディー・タイ)をサポートします。11B Vision モデルはテキストに加えて画像コンテンツの安全性も判定できます。
Llama Guard 3 はテキスト分類タスクとして動作し、入力テキストに対して以下の形式で応答します。
安全な場合:
safe
危険な場合:
unsafe
S6
応答の1行目が safe / unsafe の二値分類、危険な場合は2行目に該当カテゴリコード(S1-S13)が出力されます。複数カテゴリに該当する場合はカンマ区切りで列挙されます。
| ベンチマーク | Llama Guard 3 8B | Llama Guard 2 | OpenAI Mod API |
|---|---|---|---|
| ToxicChat(F1) | 0.882 | 0.848 | 0.721 |
| OpenAI Mod(F1) | 0.845 | 0.812 | 0.859 |
| XSTest(F1) | 0.894 | 0.867 | 0.742 |
| 推論速度(tokens/s) | 180 | 150 | N/A(API) |
Llama Guard 3 は前世代の Llama Guard 2 から全ベンチマークで精度が向上しています。
Llama Guard 3 はガードレールシステムの判定エンジンとして、以下のパターンで統合されます。
| 統合先 | 方式 |
|---|---|
| NeMo Guardrails | 入力/出力レールの判定モデルとして設定 |
| vLLM / TGI | 推論サーバーとしてデプロイし API 経由で呼び出し |
| Hugging Face Transformers | pipeline("text-classification") で直接利用 |
| Ollama | ollama run llama-guard3 でローカル実行 |
| Together AI / Fireworks | クラウド API 経由(ホスティング不要) |
| デプロイ方式 | レイテンシ | コスト |
|---|---|---|
| vLLM(A100 40GB) | 50-100ms | GPU 時間コスト |
| Ollama(RTX 4090) | 80-150ms | ローカル GPU |
| Together AI API | 100-200ms | $0.20/M tokens |
| Llama Guard 3-1B(CPU) | 200-500ms | CPU のみで動作 |
8B モデルは GPU が必要ですが、1B モデルは CPU のみで実用的な速度で動作するため、コスト重視の環境に適しています。
A: はい、Llama 3.1 Community License に基づいて商用利用が可能です。月間アクティブユーザー7億人未満の組織は無償で利用できます。
A: プロンプトテンプレートを編集することで、デフォルトの13カテゴリに加えて独自のカテゴリを追加できます。ただし、追加カテゴリの精度はfine-tuning なしでは限定的です。
A: Llama Guard 3 8B は英語に最適化されており、日本語の精度は英語より低下します。日本語用途では Llama Guard 3-1B(多言語対応)の方が安定した結果が得られますが、日本語は公式サポート言語に含まれていないため、精度検証が推奨されます。