Constitutional AI で使用される自然言語の行動規範集で、有用性・無害性・正直さ(HHH)を基盤にモデルの自己批評と修正を導く原則群
CAI 原則セットは、Constitutional AI フレームワークにおいてモデルの行動を規定する自然言語で記述されたルール集である。「憲法(Constitution)」の名の通り、AI モデルが従うべき最上位の行動規範として機能し、出力の自己批評・修正プロセスの判断基準となる。Anthropic が 2022 年の論文で公開した原則セットは約 16 項目から構成され、国連人権宣言や研究倫理ガイドラインを参考に設計された。
CAI 原則は大きく 3 カテゴリに分類される。
| 原則ID | カテゴリ | 内容(要約) | 適用場面 |
|---|---|---|---|
| P1 | Harmlessness | 人種・性別・宗教への差別的表現を避ける | ステレオタイプ含む質問への応答 |
| P2 | Harmlessness | 違法行為の具体的手順を提供しない | 武器製造・ハッキング手法の質問 |
| P3 | Harmlessness | 自傷・自殺を助長する内容を含めない | メンタルヘルス関連の相談 |
| P4 | Helpfulness | 質問の意図を正確に把握し実用的に回答する | 技術的質問、How-to |
| P5 | Helpfulness | 不必要に回答を拒否しない | グレーゾーンの質問 |
| P6 | Honesty | 不確実な情報には確信度を明示する | 最新ニュース、未確認情報 |
| P7 | Honesty | AI であることを偽らない | ロールプレイ、なりすまし要求 |
| P8 | Safety | 児童の安全を最優先する | 未成年に関連する質問 |
Q1: 憲法の原則は何個くらいが適切ですか? A: Anthropic の初期実装は 16 原則だったが、2025 年時点では数十〜百数十に拡張されている。少なすぎるとカバレッジ不足、多すぎると原則間の矛盾が生じやすくなるため、定期的な整理統合が必要。
Q2: 原則セットは公開されていますか? A: Anthropic は初期論文で原則の一部を公開しているが、製品版 Claude に使用される完全な原則セットは非公開。ただし、Anthropic は透明性レポートで原則の概要と更新履歴を公開する方針を示している。
Q3: 原則の優先順位が矛盾する場合はどう処理されますか? A: 明示的な優先順位階層(安全性 > 正直性 > 有用性)が設定されており、矛盾時は上位原則が優先される。具体的には自己批評フェーズで複数原則を同時に評価し、最も優先度の高い原則に従った修正を採用する。