LLM透かし検出とは、大規模言語モデルが生成したテキストに埋め込まれた統計的透かし(ウォーターマーク)を検出する技術であり、AI生成コンテンツの識別・追跡・著作権保護に活用される。
LLM透かし検出(LLM Watermark Detection)は、大規模言語モデルが出力するテキストに統計的な「指紋」を埋め込み、後からそのテキストがAI生成であるかを判定する技術である。2023年にメリーランド大学のKirchenbauer らが提案した手法が端緒となり、2026年現在ではOpenAI・Google・Meta・Anthropicなど主要AIベンダーが独自の透かし技術を研究・実装している。
AI生成テキストの爆発的な増加により、以下の社会的課題が深刻化している。
LLMの透かしは、トークン生成時の確率分布を微妙に操作することで実現される。
| 手法 | 原理 | 検出精度 | テキスト品質への影響 |
|---|---|---|---|
| Green/Red List方式 | 語彙をグリーン/レッドリストに分割し、グリーンリストトークンの出現確率を上昇 | z-score > 4.0で99.99%以上 | 低(perplexity増加 < 3%) |
| トークンバイアス方式 | 特定のトークン列に対して微小なlogitバイアスを付与 | AUC 0.95以上 | 極低(人間には判別不能) |
| サンプリング操作方式 | temperature/top-pパラメータを秘密鍵で変調 | 200トークン以上で95%以上 | 中(多様性がやや低下) |
| 埋め込み空間方式 | 出力ベクトルの特定次元にシグナルを注入 | トークン長依存 | 極低 |
z-score = (グリーントークン数 - 期待値) / 標準偏差
期待値 = トークン総数 × グリーンリスト比率(通常0.5)
標準偏差 = sqrt(トークン総数 × p × (1-p))
| 方式名 | 提案者/組織 | 発表年 | 特徴 | 最小検出長 |
|---|---|---|---|---|
| KGW (Kirchenbauer-Geiping-Wen) | メリーランド大学 | 2023 | Green/Redリスト分割の元祖 | 25トークン |
| Unigram Watermark | Google DeepMind | 2024 | コンテキスト非依存で高速 | 50トークン |
| SynthID-Text | Google DeepMind | 2024 | Gemini統合、Tournament sampling | 100トークン |
| Adaptive Watermark | Meta FAIR | 2024 | テキスト品質適応型バイアス | 30トークン |
| Multi-bit Watermark |
Q1: LLMの透かしは一般ユーザーにも見えるのか? A: 見えない。透かしは統計的な偏りとしてトークン選択に埋め込まれるため、テキストの自然さや意味は保たれる。専用の検出ツールと秘密鍵がなければ透かしの有無を判別できない。
Q2: ChatGPTやGeminiの出力には透かしが入っているのか? A: 2026年6月時点で、Google GeminiはSynthID-Textによる透かしを実装済み。OpenAIは2024年に内部テスト済みだが一般公開は未定。Anthropic Claudeは公式には透かし非搭載だが、将来的な導入を示唆している。
Q3: 透かしを除去することは可能か? A: 理論的には可能。パラフレーズツール・翻訳ループ・別LLMによるリライトなどで透かし強度を低下させられる。ただし、ロバスト透かし方式(Unigram Watermark等)は軽微な書き換えでは破壊されない設計になっている。
Q4: 透かし検出の精度はどの程度信頼できるのか? A: 200トークン以上のテキストで、最新のKGW方式は偽陽性率0.01%未満・真陽性率99%以上を達成。ただし50トークン未満では検出精度が大幅に低下する。
| スタンフォード大学 |
| 2025 |
| 複数ビットのメタデータ埋め込み |
| 200トークン |