LLM(大規模言語モデル)が生成したテキストに人間には知覚できない統計的パターンを埋め込み、後からそのテキストがAI生成であることを検出可能にする技術。
LLMウォーターマーキング(LLM Watermarking)は、大規模言語モデルが出力するテキストに統計的な「透かし」を埋め込む技術である。画像や動画の電子透かしと同様の発想だが、テキストという離散的なトークン列に対して適用する点が技術的に困難であり、2023年以降急速に研究が進んでいる。
EU AI Act(2024年発効)や米国大統領令(Executive Order 14110, 2023年)がAI生成コンテンツの識別可能性を要求したことで、学術研究から実用段階へ移行しつつある。
| 課題 | 具体例 | ウォーターマークの役割 |
|---|---|---|
| 学術不正 | 学生がChatGPTでレポート作成 | AI生成テキストの検出 |
| フェイクニュース | LLMによる偽記事の大量生成 | 出所追跡・真贋判定 |
| 著作権侵害 | AI生成コンテンツの無断転載 | 生成元モデルの特定 |
| 規制対応 | EU AI Act / 米国大統領令 | コンプライアンス遵守 |
| モデル学習汚染 | AI生成テキストでの再学習 | Model Collapse 防止 |
トークン生成時にサンプリング分布を操作してパターンを埋め込む。Kirchenbauer et al.(2023)のGreen/Red List方式が代表的。モデル推論パイプラインの一部として動作するため、APIプロバイダ側で実装可能。
生成済みテキストに対して同義語置換や文構造変換でパターンを付与する。モデル非依存だが、テキスト品質の劣化リスクが高い。
モデルの重みやアーキテクチャにウォーターマークを埋め込む。モデルの知的財産保護が主目的で、出力テキストの識別とは異なるアプローチ。
| 評価軸 | 理想 | 現実の課題 |
|---|---|---|
| 検出精度 | 偽陽性 0%・偽陰性 0% | 短いテキスト(<50トークン)で精度低下 |
| テキスト品質 | 透かしなしと同等 | perplexity が 1〜5% 上昇するケースあり |
| 頑健性 | パラフレーズ・翻訳に耐える | GPT による書き換えで除去可能な手法が多い |
| 計算コスト | 推論コスト増加なし | ハッシュ計算で 2〜10% のレイテンシ増 |
| 秘匿性 | パターンが人間に不可知 | 統計テストで検出可能=攻撃者にも検出可能 |
| 手法/システム | 提案者 | 年 | 特徴 |
|---|---|---|---|
| Green/Red List | Kirchenbauer et al. (UMD) | 2023 | トークンをGreen/Redに分割、Greenを優先選択 |
| Unigram Watermark | Zhao et al. | 2023 | コンテキスト非依存でロバスト |
| SynthID-Text | Google DeepMind | 2024 | Tournament Sampling, Gemini に実装済み |
| Robust Multi-bit | Yoo et al. | 2024 | 複数ビットの情報埋め込み可能 |
| Adaptive Watermark | Kuditipudi et al. | 2024 | テキスト品質と頑健性の動的バランス |
A1: できない。短いテキスト(50トークン未満)では統計的有意性が不足し、偽陰性率が上がる。200トークン以上で検出精度95%以上が一般的な目安。また、パラフレーズ攻撃で除去される可能性もある。
A2: 理論上は下がる。Green Listからの選択を強制するため、最適なトークンが選ばれない場合がある。ただしSynthID-Textなど最新手法ではperplexity上昇を1%未満に抑えている。
A3: 限定的。モデル重みにアクセスできる攻撃者はウォーターマークの仕組みを解析・除去できる。ただし、APIとしてのみ提供する場合や、モデル所有者の特定(IP保護)目的では有効。