CAI批評-修正サイクルとは、Constitutional AIの教師あり学習段階において、AIモデルが自身の生成した応答を憲法原則に照らして自己批評(Critique)し、問題点を修正した改善版(Revision)を生成する反復プロセスであり、人間のフィードバックなしに出力品質を段階的に向上させる仕組みである。
批評-修正サイクル(Critique-Revision Cycle)は、Constitutional AI(CAI)の第1段階(SL-CAI: Supervised Learning CAI)で使用される中核的なメカニズムである。このプロセスでは、AIモデルが「批評者」と「修正者」の二重の役割を担い、自らの出力を憲法原則に基づいて評価・改善する。
人間の文章推敲プロセスに例えると、「下書き→校正→修正」のサイクルをAI自身が自動的に実行するものと理解できる。ただし、人間の推敲と異なり、評価基準が明示的な原則セット(憲法)として形式化されている点が特徴である。
ベースモデル(Helpful-Only モデル)に red team プロンプトを入力し、潜在的に有害な初期応答を意図的に生成する。
生成された応答に対し、憲法の各原則を適用して批評を行う。批評プロンプトの形式は以下のようになる:
以下の応答を読み、[憲法原則X]の観点から問題点を指摘してください。
問題がない場合は「問題なし」と回答してください。
[応答テキスト]
批評で指摘された問題点を解消するよう、応答を書き直す。修正プロンプトの形式:
以下の批評に基づき、元の応答を修正してください。
有用性を維持しながら、指摘された問題を解決してください。
批評: [批評テキスト]
元の応答: [応答テキスト]
Phase 2-3 を複数回繰り返すことで、品質を段階的に向上させる。
Anthropic の実験データに基づく反復回数と品質の関係:
| 反復回数 | 有害性スコア(低い=良い) | 有用性スコア | 計算コスト倍率 | 備考 |
|---|---|---|---|---|
| 0回(元の応答) | 0.45 | 0.80 |
| 1.0x |
| ベースライン |
| 1回 | 0.18 | 0.82 | 2.5x | 最もコスト効率が良い |
| 2回 | 0.13 | 0.83 | 4.0x | 品質向上の主要部分を獲得 |
| 4回 | 0.11 | 0.83 | 7.5x | 限界収穫逓減 |
| 8回 | 0.10 | 0.82 | 14.0x | 有用性がわずかに低下 |
1〜2回の反復で有害性の大部分(約70%)が除去され、4回以上は収穫逓減に入る。過度な反復は「漂白」(bleaching)と呼ばれる現象を引き起こし、応答が無味乾燥になるリスクがある。
批評の品質はモデルサイズに強く依存する。Anthropic の実験では:
| モデルサイズ | 批評精度 | 偽陽性率 | 偽陰性率 |
|---|---|---|---|
| 7B パラメータ | 62% | 28% | 10% |
| 13B パラメータ | 74% | 18% | 8% |
| 52B パラメータ | 85% | 10% | 5% |
| 175B+ パラメータ | 92% | 5% | 3% |
小型モデルでは批評能力が不十分で、偽陽性(問題のない応答を問題ありと判定)が多くなる。これが過剰拒否の一因となりうる。
批評時に Chain-of-Thought(思考連鎖)を導入すると、批評の精度が 5〜12% 向上することが確認されている。モデルが「なぜ問題があるか」を段階的に推論することで、表面的なパターンマッチングではなく、文脈を考慮した深い批評が可能になる。
大規模な訓練データセットに対して批評-修正サイクルを適用する場合、以下の最適化が重要:
批評-修正サイクルで生成された改善データは、2つの用途に使われる:
特に2番目の用途が重要で、人間が比較判定する代わりにAI自身の批評-修正プロセスが選好ラベルを自動生成するため、RLHF の人間依存コストを大幅に削減できる。
Q1: 批評-修正サイクルと一般的なプロンプトエンジニアリングの「自己修正」の違いは何ですか? A: プロンプトエンジニアリングの自己修正は推論時(inference time)に行われますが、CAI の批評-修正は訓練時(training time)に行われ、その結果でモデル自体の重みが更新されます。つまり、CAI は恒久的な能力改善をもたらします。
Q2: 批評の際、すべての憲法原則を毎回適用しますか? A: 初期実装ではすべての原則を適用していましたが、効率化のため関連性の高い原則のみを選択的に適用する手法が研究されています。トピック分類に基づくルーティングや、エントロピーベースの原則選択などが提案されています。
Q3: 批評-修正サイクルは推論時にも使えますか? A: はい、「Constitutional Prompting」として推論時にも適用可能です。ただし、レイテンシが2〜3倍に増加するため、リアルタイム対話には不向きです。バッチ処理やコンテンツモデレーションなど、品質が最優先の場面で有効です。