LLM透かし蒸留攻撃とは、透かし付きLLMの出力を教師データとして別のモデルを学習させることで、透かしなしのテキスト生成能力を獲得する手法であり、LLM透かし技術の根本的な脆弱性として研究が進められている。
LLM透かし蒸留攻撃(Watermark Distillation Attack)は、透かしが埋め込まれたLLMの出力テキストを大量に収集し、それを教師データとして透かしなしのモデルを蒸留(知識蒸留: Knowledge Distillation)する攻撃手法である。2024年にカーネギーメロン大学やETH Zurichの研究グループが実証し、既存のLLM透かし方式に対する根本的な脅威として注目を集めている。
蒸留攻撃は以下のステップで実行される。
| 攻撃パラメータ | 典型値 | 備考 |
|---|---|---|
| 収集サンプル数 | 10万〜100万 | 多いほど品質向上 |
| 生徒モデルサイズ | 7B〜13B | ターゲットの1/10〜同等 |
| 学習エポック | 1〜3 | 過学習を避けるため少数 |
| 学習率 | 1e-5〜5e-5 | LoRAの場合2e-4 |
| 透かし除去率 | 85〜99% | KGW方式に対して |
2024〜2025年の研究で報告された蒸留攻撃の成功率:
| ターゲット透かし方式 | 攻撃前z-score | 攻撃後z-score | 除去率 | テキスト品質(BLEU) |
|---|---|---|---|---|
| KGW (δ=2.0) | 8.5 | 1.2 | 86% | 0.82 |
| KGW (δ=4.0) | 15.2 | 2.8 | 82% | 0.78 |
| Unigram Watermark | 6.3 | 0.8 | 87% | 0.85 |
| SynthID-Text | 7.1 | 1.5 | 79% | 0.80 |
| Adaptive Watermark | 5.8 |
蒸留攻撃に対する防御策も複数研究されている。
| リソース | 最小構成 | 推奨構成 |
|---|---|---|
| GPU | RTX 4090 × 1(24GB VRAM) | A100 80GB × 2 |
| 学習時間 | 6〜12時間 | 2〜4時間 |
| APIコスト(収集) | $50〜$200(10万サンプル) | $500〜$2,000(100万サンプル) |
| ストレージ | 50GB | 200GB |
| 合計コスト | $100〜$500 | $1,000〜$5,000 |
Q1: 蒸留攻撃は誰でも実行可能か? A: 技術的には可能だが、GPU資源(最低RTX 4090 1枚)とAPI費用($100以上)が必要。また、多くのLLMプロバイダーの利用規約では出力の大量収集やモデル蒸留を禁止しており、法的リスクが伴う。
Q2: 蒸留攻撃に強い透かし方式は存在するか? A: 完全に蒸留耐性のある方式は2026年時点で存在しない。ただし、動的透かし(ユーザー・時間依存パターン)とレート制限の組み合わせにより、攻撃コストを10倍以上に引き上げることは可能。
Q3: 蒸留攻撃と通常の知識蒸留の違いは? A: 通常の知識蒸留はモデルの知識・能力を小型モデルに転写することが目的。蒸留攻撃は透かしの除去が主目的であり、テキスト品質の完全再現は必須でない。攻撃者は透かしが消えれば品質が多少低下しても許容する点が異なる。
| 1.1 |
| 81% |
| 0.83 |