CAI 自己批評・修正ループとは？（シーエーアイジコヒヒョウシュウセイループ）わかりやすく解説

Q: CAI 自己批評・修正ループとは？

Constitutional AI の中核メカニズムで、モデルが自ら生成した応答を憲法の原則に照らして批評し、改善版を再生成する反復的な自己改善プロセス

3 ステップの詳細プロセス

自己批評・修正ループは以下の 3 ステップで構成される。

Step 1: 初期応答生成（Generation）: ヘルプフルネス重視のプロンプトで応答を生成する。この段階では安全性フィルタを意図的に緩め、有害な応答も含めて多様な出力を得る

Step 2: 自己批評（Critique）: 生成された応答に対し、憲法の特定原則を引用しながら問題点を指摘する。例:「この応答は原則 P2（違法行為の手順提供禁止）に違反しています。具体的には、〜の部分が問題です」

Step 3: 修正（Revision）: 批評内容を踏まえて応答を書き直す。元の質問への有用性を維持しつつ、指摘された問題点を解消した改善版を生成する

1 サイクルで十分な改善が得られない場合、Step 2-3 を最大 4-5 回繰り返す

各サイクルで異なる原則を適用することで、多角的な品質改善が可能

最終的な修正版が SL フェーズの教師データとなり、モデル全体の安全性が底上げされる

自己批評の品質と精度

批評の種類	精度（論文報告値）	適用場面	課題
有害性検出	約 92%	暴力・差別・違法内容	微妙なニュアンスの検出が弱い
事実性検出	約 78%	誤情報・ハルシネーション	専門分野での誤判定が多い
プライバシー検出	約 88%	個人情報漏洩リスク	公開情報との境界が曖昧
著作権検出	約 73%	コード・文章の著作権侵害	フェアユースの判断が困難
バイアス検出	約 81%	ジェンダー・人種バイアス	文化的文脈依存で基準が変動

実装の技術的詳細

プロンプト構成: 批評プロンプトは「以下の応答を原則 [P_n] に照らして評価してください。問題がある場合は具体的に指摘してください」の形式で構成される

トークン消費: 1 サイクル（生成+批評+修正）で約 2,000-4,000 トークンを消費。5 サイクル繰り返すと最大 20,000 トークンに達する

バッチ処理: 訓練時は数万件の応答に対して並列でループを実行。Anthropic は 2023 年時点で約 18 万件の修正済み応答ペアを SL データとして使用

品質フィルタリング: 修正後も品質基準を満たさない応答は教師データから除外される。除外率は約 8-12%

Chain-of-Thought 統合: 批評ステップに CoT（思考の連鎖）を組み込むことで、批評の根拠を明示化し精度を向上させる手法が 2024 年以降主流に

温度パラメータ: 初期応答は temperature=1.0 で多様性を確保、批評は temperature=0.3 で一貫性を重視、修正は temperature=0.7 でバランスを取る

自己批評ループの限界と改善策

循環批評問題: 批評と修正が堂々巡りになるケースがある。対策として最大サイクル数を設定し、改善が停滞したら打ち切る

ベースモデル依存: 批評の品質はベースモデルの能力に強く依存する。70B パラメータ未満のモデルでは批評精度が大幅に低下する

原則の曖昧性: 自然言語の原則は解釈の幅があり、批評の一貫性にばらつきが生じる。2025 年以降、Anthropic は原則に具体例（few-shot）を付記して解釈のブレを低減

コスト: 推論コストが通常の 3-5 倍になるため、大規模訓練時の計算資源が課題。AWS p5.48xlarge（NVIDIA H100 x8）で 1 回の CAI 訓練に約 $150K-300K

よくある質問（FAQ）

Q1: 自己批評ループは推論時（デプロイ後）にも動作しますか？ A: 訓練時にのみ使用されるのが標準的な実装である。推論時に毎回ループを回すとレイテンシが数十秒に達するため実用的でない。ただし、安全性が特に重要なユースケースでは推論時にも 1 サイクルの批評・修正を挟む実装が研究されている。

Q2: 人間の批評と AI の自己批評はどちらが精度が高いですか？ A: 有害性検出では AI の自己批評が人間アノテーター（クラウドソーシング）と同等〜やや上回る精度を示す。ただし微妙なニュアンス（皮肉、文化的文脈）では人間が優位。専門家アノテーターとの比較では AI が劣る場面が多い。

Q3: 修正回数を増やすほど品質は向上しますか？ A: 概ね 2-3 回のサイクルで品質向上が飽和する傾向がある。4 回以上は追加の改善幅が小さく、計算コストに見合わないことが多い。Anthropic の実験では 3 サイクルが最適とされている。

まとめ

自己批評・修正ループは CAI の中核で、生成→批評→修正の 3 ステップを反復する

批評精度は有害性検出で約 92%、事実性で約 78% と高い水準

2-3 サイクルの反復で品質向上が飽和するのが一般的

ベースモデルの能力に依存するため、70B+ パラメータのモデルで効果的

メニュー

CAI 自己批評・修正ループ（シーエーアイジコヒヒョウシュウセイループ）

この用語に関連するコンテンツ

メニュー

CAI 自己批評・修正ループ（シーエーアイジコヒヒョウシュウセイループ）

この用語に関連するコンテンツ