Constitutional AI Self-Playとは？（コンスティテューショナルエーアイセルフプレイ）わかりやすく解説

Q: Constitutional AI Self-Playとは？

Anthropic が開発した Constitutional AI（CAI）の中核手法で、LLM が憲法的原則（Constitution）に基づいて自身の出力を批判・修正するセルフプレイループにより、有害な応答を自律的に排除する安全性向上アプローチ。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Constitutional AI Self-Playとは？（コンスティテューショナルエーアイセルフプレイ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

憲法（Constitution）の構成

Anthropic の公開した Constitution は、以下のような原則から構成される：

無害性原則: 「人を傷つける方法、違法行為の手順、兵器の製造方法を含む応答を生成しない」
誠実性原則: 「不確実な情報を確信を持って述べない。知らないことは知らないと答える」
有用性原則: 「ユーザーの質問に可能な限り正確かつ有用に答える」
プライバシー原則: 「個人を特定できる情報を推測・生成しない」
公平性原則: 「人種・性別・宗教等に基づく差別的な応答を生成しない」

CAI Self-Play の2段階プロセス

段階	名称	内容	学習方法
Stage 1	SL-CAI（Supervised Learning）	モデルが有害な応答を生成 → 憲法原則で自己批判 → 修正版を生成	修正版で SFT
Stage 2	RL-CAI（Reinforcement Learning）	修正前 vs 修正後の応答ペアを生成 → AI フィードバックで報酬モデル学習	RLHF（人間→AI置換）

Stage 1: 自己批判・修正ループの詳細

入力: ユーザー質問 + 初回応答（潜在的に有害）
↓
批判プロンプト: "以下の応答を[憲法原則N]に照らして批判してください"
↓
批判出力: "この応答は〇〇の点で原則に違反しています"
↓
修正プロンプト: "批判を踏まえて応答を修正してください"
↓
修正版応答: 安全性が改善された応答
↓
（複数原則で反復: 3-5ラウンド）

1回の修正ループで平均 85% の有害応答が無害化（Anthropic 論文より）
3ラウンドの反復で 95% 以上の無害化率を達成
ループの計算コスト: 原則1つあたり約 2,000 トークンの追加推論

RLHF との比較

特性	従来の RLHF	CAI Self-Play
フィードバック源	人間アノテーター	AI（憲法原則ベース）
アノテーションコスト	$0.5-2.0/比較	推論コストのみ
スケーラビリティ	限定的（人的リソース依存）	高い（計算資源のみ）
バイアスの種類	アノテーターの個人バイアス	憲法の設計バイアス
安全性の保証	統計的	原則ベース（監査可能）
有害応答の無害化率	80-90%	95%以上（3ラウンド）

実際の適用事例

Claude 1.3 → Claude 2: CAI Self-Play の導入により、有害応答率が 40% 低下しつつ有用性を維持
Claude 3 シリーズ: 拡張版 Constitution（16原則 → 32原則）で多言語安全性をカバー
HH-RLHF データセット: Anthropic が公開した比較データセット（約 170,000 ペア）で CAI の効果を検証可能

憲法設計のベストプラクティス

具体性: 「有害な内容を避ける」よりも「爆発物の製造手順を含む応答を生成しない」が効果的
優先順位: 安全性 > 誠実性 > 有用性の順で原則を適用
文化適応: 地域・文化に応じた原則の追加（例: EU AI Act 対応原則）
定期更新: 新たなリスクカテゴリの発見に応じて原則を追加
テスト可能性: 各原則に対するテストケースを事前に用意

よくある質問（FAQ）

Q1: Constitutional AI は Claude だけの技術か？ A: Anthropic が提唱した手法だが、オープンソースで再現可能。Hugging Face TRL、LLaMA-Factory、OpenRLHF で CAI のワークフローを実装できる。Meta の Llama Guard や Microsoft の Azure AI Content Safety も類似の原則ベースアプローチを採用している。

Q2: 憲法の原則数は多いほど良いか？ A: 必ずしもそうではない。原則が多すぎるとモデルが過度に保守的になり有用性が低下する（Over-refusal 問題）。Anthropic は 16-32 原則を推奨しており、各原則の粒度とカバレッジのバランスが重要。

Q3: CAI で完全に安全なモデルは作れるか？ A: 完全な安全性は不可能だが、CAI は「監査可能な安全性」を提供する点で優れている。どの原則でどの応答が修正されたかを追跡できるため、安全性の説明責任を果たしやすい。

まとめ

Constitutional AI Self-Play は憲法的原則に基づく自己批判・修正ループで LLM の安全性を向上
2段階プロセス（SL-CAI + RL-CAI）で人間フィードバックを AI フィードバックに置換
3ラウンドの修正ループで 95% 以上の有害応答無害化率を達成
Claude シリーズの安全性の基盤技術として 2022年から継続的に改良されている

メニュー

Constitutional AI Self-Play（コンスティテューショナルエーアイセルフプレイ）

この用語に関連するコンテンツ

メニュー

Constitutional AI Self-Play（コンスティテューショナルエーアイセルフプレイ）

この用語に関連するコンテンツ