Anthropic が提唱した AI アライメント手法で、人間のフィードバックの代わりに「憲法(Constitution)」と呼ばれる原則セットを用いて AI の出力を自己改善させる技術
Constitutional AI(CAI)は、Anthropic が 2022 年に発表した AI アライメント手法である。従来の RLHF(Reinforcement Learning from Human Feedback)では大量の人間アノテーターが必要だったが、CAI では「憲法」と呼ばれる明文化された原則セットを AI 自身に与え、自己批評・自己修正のループを通じて出力品質を高める。Claude シリーズの安全性基盤として実装されている。
CAI のトレーニングは大きく 2 段階で構成される。
| 手法 | アノテーター依存 | スケーラビリティ | 原則の透明性 | コスト | 代表モデル |
|---|---|---|---|---|---|
| RLHF | 高(数千人規模) | 低 | 暗黙的 | $500K-2M/回 | InstructGPT, GPT-4 |
| Constitutional AI (RLAIF) | 低(原則設計のみ) | 高 | 明示的(憲法文書) | $50K-200K/回 | Claude 3/4 シリーズ |
| DPO | 中(ペアデータ必要) | 中 | 暗黙的 | $100K-500K/回 | Zephyr, Tulu |
| Self-Play | 低 | 中 | 部分的 | $200K-800K/回 | Llama 3 |
| Rule-Based Rewards | なし | 高 | 明示的 | $10K-50K/回 | Phi-3 Safety |
Q1: Constitutional AI は RLHF を完全に置き換えるものですか? A: 完全な置き換えではなく補完関係にある。Anthropic の実装でも RLAIF(AI フィードバックによる強化学習)と少量の人間フィードバックを併用しており、CAI 単独ではカバーしにくい微妙なニュアンス判断は人間が担当する。
Q2: 憲法の原則はどのように設計されるのですか? A: Anthropic では、国連人権宣言、Apple の利用規約ガイドライン、研究倫理の原則などを参考に、自然言語で数十〜百数十の原則を記述する。原則は「〜してはならない」という禁止規則と「〜すべきである」という推奨規則の組み合わせで構成される。
Q3: CAI で訓練されたモデルは過剰に安全(over-refusal)になりませんか? A: 初期の CAI 実装では過剰拒否が課題だったが、Anthropic は「有用であること」を憲法の原則に明示的に含め、HHH バランスを取ることで改善した。Claude 3.5 以降では過剰拒否率が Claude 2 比で約 40% 削減されている。
Q4: オープンソースモデルにも CAI は適用できますか? A: 原理的には可能で、Hugging Face の TRL ライブラリに CAI パイプラインの実験的サポートがある。ただし、自己批評の品質はベースモデルの能力に依存するため、70B パラメータ以上のモデルでないと効果が限定的とされる。