Constitutional AI（CAI）とは？（コンスティテューショナルエーアイ）わかりやすく解説

Anthropic が提唱した AI アライメント手法で、人間のフィードバックの代わりに「憲法（Constitution）」と呼ばれる原則セットを用いて AI の出力を自己改善させる技術

Constitutional AI（CAI）とは？（コンスティテューショナルエーアイ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

基本的な仕組み

CAI のトレーニングは大きく 2 段階で構成される。

SL（Supervised Learning）フェーズ: モデルに有害な応答を生成させた後、憲法の原則に照らして自己批評（critique）を行い、修正版（revision）を生成する。この修正後の応答を教師データとしてファインチューニングする
RL（Reinforcement Learning）フェーズ: 修正済み応答ペアを使って報酬モデルを訓練し、RLAIF（RL from AI Feedback）で最終調整する
憲法の原則は「有害でないこと」「正直であること」「有用であること」の HHH（Helpful, Harmless, Honest）を基盤とする
原則は自然言語で記述され、例えば「差別的な表現を含まないように修正してください」「法的に問題のある助言を避けてください」といった具体的な指示が含まれる
人間のアノテーターへの依存を大幅に削減でき、スケーラビリティが高い
Anthropic の論文「Constitutional AI: Harmlessness from AI Feedback」（2022年12月）で初めて体系化された
2024-2025 年にかけて Claude 3 / Claude 3.5 / Claude 4 シリーズに順次適用され、安全性と有用性のバランスが大幅に向上した
2026 年現在、Google DeepMind の Gemini Safety や Meta の Llama Guard にも類似アプローチが採用されている

手法	アノテーター依存	スケーラビリティ	原則の透明性	コスト	代表モデル
RLHF	高（数千人規模）	低	暗黙的	$500K-2M/回	InstructGPT, GPT-4