LLMウォーターマーキングとは？（エルエルエムウォーターマーキング）わかりやすく解説

メリット: 追加の後処理が不要で、モデル推論パイプラインに直接組み込める
デメリット: モデルの出力品質（perplexity）にわずかな影響を与える可能性がある

LLM（大規模言語モデル）が生成したテキストに不可視の透かし（ウォーターマーク）を埋め込み、AI生成文であることを後から検証可能にする技術の総称。著作権保護・偽情報対策・規制準拠を目的とする。

LLMウォーターマーキングとは？（エルエルエムウォーターマーキング）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

主な方式と分類

LLMウォーターマークは大きく2種類に分けられる。

モデルのデコード段階でトークン選択確率を微調整し、出力テキストに統計的偏りを仕込む。代表例が Green/Red List 方式や Exponential Minimum Sampling である。

生成済みテキストに対して同義語置換や文構造変換で透かしを埋め込む。自然言語処理ベースのステガノグラフィに近い。

方式	代表手法	品質影響	検出精度	頑健性
Green/Red List	Kirchenbauer et al. 2023	低〜中	高（z > 4.0 で FPR < 0.01%）	中
Exponential Sampling	Aaronson & Christiano 2022	極低

プロジェクト	開発元	公開年	特徴	利用可能性
SynthID-Text	Google DeepMind	2024	Tournament Sampling、Gemini に統合	Gemini API 経由
GPT Watermark	OpenAI	2023（研究）	内部検討、未公開 API	非公開
Llama Guard 3 WM	Meta	2025	Llama 3.x 系に統合検討	OSS 検討中
lm-watermarking	Kirchenbauer Lab	2023	Green/Red List のリファレンス実装	GitHub OSS
MarkLLM	THU-BPM	2024	9方式統合ベンチマーク	GitHub OSS
WaterBench	複数大学連合	2024	頑健性ベンチマーク	GitHub OSS