Anthropic が開発した Constitutional AI(CAI)の中核手法で、LLM が憲法的原則(Constitution)に基づいて自身の出力を批判・修正するセルフプレイループにより、有害な応答を自律的に排除する安全性向上アプローチ。
Constitutional AI(CAI)Self-Play は、Anthropic が 2022年に発表した LLM の安全性向上手法である。モデルに「憲法」(Constitution)と呼ばれる行動原則のセットを与え、自身の出力をその原則に照らして批判・修正する自己改善ループを回すことで、有害な応答を自律的に排除する。
Anthropic の公開した Constitution は、以下のような原則から構成される:
| 段階 | 名称 | 内容 | 学習方法 |
|---|---|---|---|
| Stage 1 | SL-CAI(Supervised Learning) | モデルが有害な応答を生成 → 憲法原則で自己批判 → 修正版を生成 | 修正版で SFT |
| Stage 2 | RL-CAI(Reinforcement Learning) | 修正前 vs 修正後の応答ペアを生成 → AI フィードバックで報酬モデル学習 | RLHF(人間→AI置換) |
入力: ユーザー質問 + 初回応答(潜在的に有害)
↓
批判プロンプト: "以下の応答を[憲法原則N]に照らして批判してください"
↓
批判出力: "この応答は〇〇の点で原則に違反しています"
↓
修正プロンプト: "批判を踏まえて応答を修正してください"
↓
修正版応答: 安全性が改善された応答
↓
(複数原則で反復: 3-5ラウンド)
| 特性 | 従来の RLHF | CAI Self-Play |
|---|---|---|
| フィードバック源 | 人間アノテーター | AI(憲法原則ベース) |
| アノテーションコスト | $0.5-2.0/比較 | 推論コストのみ |
| スケーラビリティ | 限定的(人的リソース依存) | 高い(計算資源のみ) |
| バイアスの種類 | アノテーターの個人バイアス | 憲法の設計バイアス |
| 安全性の保証 | 統計的 | 原則ベース(監査可能) |
| 有害応答の無害化率 | 80-90% | 95%以上(3ラウンド) |
Q1: Constitutional AI は Claude だけの技術か? A: Anthropic が提唱した手法だが、オープンソースで再現可能。Hugging Face TRL、LLaMA-Factory、OpenRLHF で CAI のワークフローを実装できる。Meta の Llama Guard や Microsoft の Azure AI Content Safety も類似の原則ベースアプローチを採用している。
Q2: 憲法の原則数は多いほど良いか? A: 必ずしもそうではない。原則が多すぎるとモデルが過度に保守的になり有用性が低下する(Over-refusal 問題)。Anthropic は 16-32 原則を推奨しており、各原則の粒度とカバレッジのバランスが重要。
Q3: CAI で完全に安全なモデルは作れるか? A: 完全な安全性は不可能だが、CAI は「監査可能な安全性」を提供する点で優れている。どの原則でどの応答が修正されたかを追跡できるため、安全性の説明責任を果たしやすい。