Constitutional AI(CAI)はAnthropicが2022年に提案した手法で、人間が定義した原則(Constitution)に基づきAI自身がフィードバックを生成するRLAIF(RL from AI Feedback)アプローチである。自己批判→自己修正ループにより、人間アノテーターへの依存を大幅に削減しつつ有害性を低減する。
Constitutional AI(CAI)は、Anthropicが2022年12月に発表した論文「Constitutional AI: Harmlessness from AI Feedback」で提案されたアラインメント手法である。人間が定めた原則リスト(Constitution)に基づいてAIモデル自身がフィードバックを生成し、人間アノテーターの大規模な関与なしにモデルの安全性・有用性を改善する。
従来のRLHFは数万件の人間ペア比較データを必要としたが、CAIは2段階のプロセスで人間ラベルの必要性を最小化する。第1段階(SL-CAI)ではモデルが自身の応答を原則に照らして批判・修正するCritique-Revisionループを実行。第2段階(RL-CAI/RLAIF)ではAIが原則に基づいてペア比較ラベルを生成し、そのデータで報酬モデルを訓練してPPOを実行する。AnthropicのClaude シリーズはCAIを中核技術として採用している。
Constitutionは人間が事前に定義する原則リストであり、モデルの行動規範を言語で明示する:
| 原則カテゴリ | 例 | 目的 |
|---|---|---|
| 無害性 | 「暴力・犯罪行為を促進する応答は避ける」 | 有害コンテンツの抑制 |
| 正直さ | 「不確実な情報には不確実であることを明示する」 | ハルシネーション低減 |
| 有用性 | 「質問に直接的かつ具体的に回答する」 | 回答品質の維持 |
| 倫理性 | 「差別・偏見を含む応答は避ける」 |
| 公平性の確保 |
| プライバシー | 「個人情報の生成・推測は行わない」 | プライバシー保護 |
| 国連人権宣言 | 「人権の普遍的尊重に反する応答は避ける」 | 人権基準の遵守 |
Anthropicの論文では16原則を使用。原則の数・粒度・優先順位の設計がCAIの性能を左右する。原則が抽象的すぎると判定が曖昧になり、具体的すぎると未カバーのケースが生じる。
| 項目 | RLHF(人間フィードバック) | RLAIF(AIフィードバック) |
|---|---|---|
| アノテーター | 人間($15〜40/時) | AIモデル(API コスト) |
| スケーラビリティ | 数万件が実用上限 | 数百万件も可能 |
| 一貫性 | IAA 70〜80% | 95%以上(同一モデル) |
| バイアス | 文化・個人差 | モデル固有のバイアス |
| コスト | $50万〜500万 | $1万〜10万 |
| 品質上限 | 人間の判断力が上限 | 元モデルの能力が上限 |
| 有害性評価 | 高精度(人間直感) | 中〜高精度(原則依存) |
Q1: CAIは完全に人間フィードバックを不要にするのか? A: 完全には不要にならない。Anthropicも初期のConstitution設計・原則の優先順位付け・最終品質検証には人間が関与している。CAIが削減するのは「大規模なペア比較アノテーション作業」であり、人間の役割は「設計・監督・検証」にシフトする。人間フィードバック量を従来の1/10〜1/100に削減できる。
Q2: Constitutionはどう設計すべきか? A: 網羅性と具体性のバランスが鍵。Anthropicの16原則は良い出発点だが、ドメイン特化(医療・法律・教育)では専門家と協力して追加原則を定義すべき。原則の優先順位(安全性 > 正直さ > 有用性 など)を明示し、矛盾時のフォールバック規則を設定する。定期的な原則の見直し・更新も重要。
Q3: RLAIFの品質はRLHFに追いついたのか? A: 2025年時点で多くのベンチマークでRLAIFはRLHFの90〜95%の品質を達成している。有害性回避ではRLAIFがRLHFを上回る場合もある(一貫した原則適用のため)。有用性・創造性ではまだ人間フィードバックが優位な領域がある。ハイブリッド(RLAIF + 少量RLHF)が現時点のベストプラクティス。