Constitutional AI の中核メカニズムで、モデルが自ら生成した応答を憲法の原則に照らして批評し、改善版を再生成する反復的な自己改善プロセス
CAI 自己批評・修正ループ(Self-Critique and Revision Loop)は、Constitutional AI の訓練プロセスにおける中核的メカニズムである。モデルがまず有害または低品質な応答を生成し、次にその応答を憲法の原則に照らして自己批評(critique)を行い、最後に批評に基づいた修正版(revision)を生成する。この 3 ステップを複数回繰り返すことで、段階的に応答品質を向上させる。生成された修正版は教師データとして SL(教師あり学習)フェーズで使用される。
自己批評・修正ループは以下の 3 ステップで構成される。
| 批評の種類 | 精度(論文報告値) | 適用場面 | 課題 |
|---|---|---|---|
| 有害性検出 | 約 92% | 暴力・差別・違法内容 | 微妙なニュアンスの検出が弱い |
| 事実性検出 | 約 78% | 誤情報・ハルシネーション | 専門分野での誤判定が多い |
| プライバシー検出 | 約 88% | 個人情報漏洩リスク | 公開情報との境界が曖昧 |
| 著作権検出 | 約 73% | コード・文章の著作権侵害 | フェアユースの判断が困難 |
| バイアス検出 | 約 81% | ジェンダー・人種バイアス | 文化的文脈依存で基準が変動 |
Q1: 自己批評ループは推論時(デプロイ後)にも動作しますか? A: 訓練時にのみ使用されるのが標準的な実装である。推論時に毎回ループを回すとレイテンシが数十秒に達するため実用的でない。ただし、安全性が特に重要なユースケースでは推論時にも 1 サイクルの批評・修正を挟む実装が研究されている。
Q2: 人間の批評と AI の自己批評はどちらが精度が高いですか? A: 有害性検出では AI の自己批評が人間アノテーター(クラウドソーシング)と同等〜やや上回る精度を示す。ただし微妙なニュアンス(皮肉、文化的文脈)では人間が優位。専門家アノテーターとの比較では AI が劣る場面が多い。
Q3: 修正回数を増やすほど品質は向上しますか? A: 概ね 2-3 回のサイクルで品質向上が飽和する傾向がある。4 回以上は追加の改善幅が小さく、計算コストに見合わないことが多い。Anthropic の実験では 3 サイクルが最適とされている。