LLM(大規模言語モデル)が生成したテキストに不可視の透かし(ウォーターマーク)を埋め込み、AI生成文であることを後から検証可能にする技術の総称。著作権保護・偽情報対策・規制準拠を目的とする。
LLMウォーターマーキングとは、大規模言語モデル(LLM)が出力するテキストに統計的な透かし信号を埋め込む技術である。人間が読む限り文章の自然さは損なわれないが、専用の検出アルゴリズムを適用すると「AI生成か否か」を高い確率で判定できる。2023年にメリーランド大学の Kirchenbauer らが提案した Green/Red List 方式が端緒となり、2024〜2026年にかけて Google DeepMind(SynthID-Text)、OpenAI、Meta(Llama Guard 3 + Watermark)など主要 LLM ベンダーが実装を公開・検討している。
EU AI Act(2024年発効・2026年段階適用)では、AI生成コンテンツの識別義務が課されており、テキストウォーターマークは技術的適合手段の有力候補として注目されている。
LLMウォーターマークは大きく2種類に分けられる。
モデルのデコード段階でトークン選択確率を微調整し、出力テキストに統計的偏りを仕込む。代表例が Green/Red List 方式や Exponential Minimum Sampling である。
生成済みテキストに対して同義語置換や文構造変換で透かしを埋め込む。自然言語処理ベースのステガノグラフィに近い。
| 方式 | 代表手法 | 品質影響 | 検出精度 | 頑健性 |
|---|---|---|---|---|
| Green/Red List | Kirchenbauer et al. 2023 | 低〜中 | 高(z > 4.0 で FPR < 0.01%) | 中 |
| Exponential Sampling | Aaronson & Christiano 2022 | 極低 |
| 高 |
| 中〜高 |
| SynthID-Text | Google DeepMind 2024 | 極低 | 高 | 高 |
| Unigram Watermark | Zhao et al. 2023 | 低 | 中 | 低〜中 |
| 後処理ステガノ | AWE/Stega 系 | 中〜高 | 中 | 低 |
生成時埋め込み方式の核心は「前のトークンのハッシュ値を秘密鍵と組み合わせ、次のトークン候補を2群(グリーン/レッド)に分割し、グリーン側のトークンの出現確率を引き上げる」ことにある。
h = Hash(t_{i-k}, ..., t_{i-1}, secret_key)この操作により、ウォーターマーク入りテキストではグリーントークンの出現比率が統計的に有意に高くなる。検出時は同じ秘密鍵でグリーン/レッド分割を再計算し、z検定で判定する。
テキスト中の T トークンのうちグリーントークン数を |s|_G とすると、ウォーターマーク非存在(帰無仮説 H0)のもとで:
z > 4.0(p < 0.00003)で「ウォーターマーク有り」と判定するのが一般的な閾値設定である。
| プロジェクト | 開発元 | 公開年 | 特徴 | 利用可能性 |
|---|---|---|---|---|
| SynthID-Text | Google DeepMind | 2024 | Tournament Sampling、Gemini に統合 | Gemini API 経由 |
| GPT Watermark | OpenAI | 2023(研究) | 内部検討、未公開 API | 非公開 |
| Llama Guard 3 WM | Meta | 2025 | Llama 3.x 系に統合検討 | OSS 検討中 |
| lm-watermarking | Kirchenbauer Lab | 2023 | Green/Red List のリファレンス実装 | GitHub OSS |
| MarkLLM | THU-BPM | 2024 | 9方式統合ベンチマーク | GitHub OSS |
| WaterBench | 複数大学連合 | 2024 | 頑健性ベンチマーク | GitHub OSS |
Google DeepMind の SynthID-Text は2024年10月に Nature 論文として発表され、Gemini に組み込まれている。Tournament Sampling と呼ばれる手法で、品質劣化をほぼゼロに抑えつつ検出可能な信号を埋め込む。従来の logit 加算方式と異なり、複数のサンプリング結果を「トーナメント形式」で比較し、秘密鍵由来のスコアが高い候補を選択する。
ウォーターマークの最大の技術的課題は、テキストの後編集に対する頑健性(Robustness)である。
δ(バイアス強度)を大きくすると検出精度は上がるが、テキスト品質(perplexity)が劣化する。δ = 1.0〜2.5 が実用的な範囲とされ、δ > 3.0 では人間評価でも品質低下が知覚される実験結果がある。
日本語・中国語などのアジア言語では、トークナイザの語彙サイズや分割粒度が英語と異なるため、Green/Red List の γ パラメータやウィンドウサイズ k の最適値が変わる。2025年時点では英語以外の言語での大規模評価は限定的である。
Q1: LLMウォーターマークは人間が気づくほど文章を変えるのか? A: 適切なパラメータ設定(δ = 1.5〜2.0, γ = 0.5)であれば、人間評価実験で非ウォーターマーク文との区別がつかないことが複数の研究で確認されている。perplexity の増加は通常 0.5〜2.0% 以内に収まる。
Q2: ウォーターマークを完全に除去する方法はあるか? A: パラフレーズ攻撃や翻訳攻撃である程度除去可能だが、SynthID-Text のような最新手法では単純な言い換えに対する耐性が向上している。ただし、完全に別の文章に書き直せば当然ウォーターマークは消える。
Q3: EU AI Act でLLMウォーターマークは義務化されるのか? A: EU AI Act 第50条では「AI生成コンテンツの機械可読マーキング」を求めているが、具体的技術(ウォーターマーク方式)は規定していない。メタデータ付与(C2PA等)との併用が想定されており、テキストウォーターマーク単独での義務化ではなく、複合的な識別手段の一つとして位置づけられている。
Q4: オープンソースLLMにウォーターマークを後付けできるか? A: 可能である。lm-watermarking や MarkLLM などのOSSライブラリを利用すれば、Hugging Face Transformers 互換の任意のモデルに Green/Red List 方式のウォーターマークを適用できる。ただし、推論パイプラインの改変が必要になるため、vLLM や TGI などのサービング基盤との統合には追加開発が必要。