LLMレッドチーミングとは？（エルエルエムレッドチーミング）わかりやすく解説

スコープ定義: テスト対象のモデル・API・ユースケースを明確化。OWASP LLM Top 10（2025年版）をベースにリスクカテゴリを選定
攻撃シナリオ設計: 手動クラフト + 自動生成のハイブリッドアプローチ。GCG（Greedy Coordinate Gradient）攻撃、AutoDAN、PAIR（Prompt Automatic Iterative Refinement）など
攻撃実行: バッチ実行 + リアルタイム対話の組み合わせ。Garakでは <code class="bg-muted px-2 py-1 rounded text-responsive-sm font-mono text-secondary-800 border border-secondary-200">garak --model_type openai --model_name gpt-4o --probes all で全プローブ実行
結果分類: Attack Success Rate（ASR）を算出。HarmBenchではASR 5%以下が合格基準
修正・再テスト: RLHF追加学習、Constitutional AIフィルター強化、入出力ガードレール調整
レポート作成: MITRE ATLAS フレームワークに準拠した脆弱性レポート

LLMレッドチーミングとは、大規模言語モデル（LLM）に対して意図的に攻撃的・悪意のあるプロンプトを入力し、安全性の脆弱性や意図しない出力を発見するセキュリティ評価手法である。軍事演習のレッドチーム（攻撃側）概念をAI安全性に応用したもの。

LLMレッドチーミングとは？（エルエルエムレッドチーミング）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

主な手法と分類

LLMレッドチーミングの攻撃手法は大きく以下のカテゴリに分類される：

ジェイルブレイク（Jailbreak）: システムプロンプトの制約を回避して有害出力を引き出す手法。DAN（Do Anything Now）プロンプト、ロールプレイ誘導、多言語バイパスなど
プロンプトインジェクション: 外部データ経由でモデルの動作を乗っ取る攻撃。間接プロンプトインジェクション（Indirect Prompt Injection）が特に危険
データ抽出攻撃: 学習データやシステムプロンプトの内容を推測・抽出する手法。Membership Inference Attack、Training Data Extraction
バイアス誘発: モデルに差別的・偏見のある出力を生成させる手法
機能悪用: コード生成、化学物質合成、サイバー攻撃手法などの危険情報の引き出し
マルチモーダル攻撃: 画像・音声入力を利用したテキストフィルター回避

ツール名	開発元	攻撃手法数	自動化レベル	ライセンス	特徴
Garak	NVIDIA	50+	高	Apache 2.0	プラグイン拡張可能、CI/CD統合
HarmBench