CAI 原則セット（Constitution）とは？（シーエーアイゲンソクセット）わかりやすく解説

Constitutional AI で使用される自然言語の行動規範集で、有用性・無害性・正直さ（HHH）を基盤にモデルの自己批評と修正を導く原則群

原則の構造と分類

CAI 原則は大きく 3 カテゴリに分類される。

Harmlessness（無害性）原則: 暴力・差別・違法行為の助長を禁止する規則群。「人種・性別・宗教に基づく差別的表現を含まないこと」「武器の製造方法や違法薬物の合成手順を提供しないこと」など

Helpfulness（有用性）原則: ユーザーの質問に対して実質的で正確な回答を提供する規則群。「質問に対して具体的かつ実行可能な情報を提供すること」「必要以上に回答を拒否しないこと」など

Honesty（正直性）原則: 事実に基づいた回答と不確実性の明示を求める規則群。「確信度が低い場合はその旨を明示すること」「出典が不明な情報を事実として提示しないこと」など

各原則は自然言語の 1-3 文で記述され、機械的なルールではなく意味的な指針として機能する

原則間の優先順位は明示的に定められ、安全性 > 正直性 > 有用性の序列が一般的

2024-2025 年にかけて、Anthropic は原則セットを段階的に拡張し、著作権保護、プライバシー、児童安全などの新領域を追加

主要原則の具体例

原則ID	カテゴリ	内容（要約）	適用場面
P1	Harmlessness	人種・性別・宗教への差別的表現を避ける	ステレオタイプ含む質問への応答
P2	Harmlessness	違法行為の具体的手順を提供しない	武器製造・ハッキング手法の質問
P3	Harmlessness	自傷・自殺を助長する内容を含めない	メンタルヘルス関連の相談
P4	Helpfulness	質問の意図を正確に把握し実用的に回答する	技術的質問、How-to
P5	Helpfulness	不必要に回答を拒否しない	グレーゾーンの質問
P6	Honesty	不確実な情報には確信度を明示する	最新ニュース、未確認情報
P7	Honesty	AI であることを偽らない	ロールプレイ、なりすまし要求
P8	Safety	児童の安全を最優先する	未成年に関連する質問

原則の設計プロセス

参照文書の選定: 国連人権宣言、Apple の Human Interface Guidelines、ACM 倫理規定、NIST AI Risk Management Framework などの既存文書から関連原則を抽出

自然言語化: 法的文書の堅い表現を AI が理解しやすい平易な指示文に変換。「第 X 条に基づき...」ではなく「〜しないでください」「〜するようにしてください」の形式

Red Teaming テスト: 設計した原則セットで自己批評・修正を行い、失敗ケースを収集。原則の文言を調整して失敗率を低減

バランス調整: 安全性を強化しすぎると有用性が低下する（over-refusal）ため、有用性原則の重みを調整。Claude 3.5 では過剰拒否率を約 40% 削減

定期更新: 新たな脅威パターン（2025 年のディープフェイク関連、2026 年の EU AI Act 準拠など）に応じて原則を追加・修正

他社の原則設計アプローチとの比較

OpenAI（GPT-4/4o）: Model Spec と呼ばれる内部文書で行動規範を定義。CAI のような自己批評ループは使用せず、RLHF + ルールベースフィルタの組み合わせ

Google DeepMind（Gemini）: 「AI Principles」を公開し、CAI 類似の原則ベースアプローチを採用。ただし自己修正ループの詳細は非公開

Meta（Llama 3）: Llama Guard で安全分類器を別途訓練。原則は分類器の訓練データラベルに暗黙的に反映される

Mistral AI: システムプロンプトによるガードレールが主で、CAI 型の体系的原則セットは未公開

よくある質問（FAQ）

Q1: 憲法の原則は何個くらいが適切ですか？ A: Anthropic の初期実装は 16 原則だったが、2025 年時点では数十〜百数十に拡張されている。少なすぎるとカバレッジ不足、多すぎると原則間の矛盾が生じやすくなるため、定期的な整理統合が必要。

Q2: 原則セットは公開されていますか？ A: Anthropic は初期論文で原則の一部を公開しているが、製品版 Claude に使用される完全な原則セットは非公開。ただし、Anthropic は透明性レポートで原則の概要と更新履歴を公開する方針を示している。

Q3: 原則の優先順位が矛盾する場合はどう処理されますか？ A: 明示的な優先順位階層（安全性 > 正直性 > 有用性）が設定されており、矛盾時は上位原則が優先される。具体的には自己批評フェーズで複数原則を同時に評価し、最も優先度の高い原則に従った修正を採用する。

まとめ

CAI 原則セットは AI の行動を規定する自然言語の最上位規範

HHH（Helpful, Harmless, Honest）を基盤に数十〜百数十の具体的原則で構成

国連人権宣言や研究倫理ガイドラインを参考に設計される

新たな脅威や規制に応じて定期的に更新・拡張される

メニュー