Constitutional AI（RLAIF）とは？（コンスティテューショナルエーアイ）わかりやすく解説

Q: Constitutional AI（RLAIF）とは？

Constitutional AI（CAI）はAnthropicが2022年に提案した手法で、人間が定義した原則（Constitution）に基づきAI自身がフィードバックを生成するRLAIF（RL from AI Feedback）アプローチである。自己批判→自己修正ループにより、人間アノテーターへの依存を大幅に削減しつつ有害性を低減する。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Constitutional AI（RLAIF）とは？（コンスティテューショナルエーアイ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

CAIの2段階プロセス

Stage 1: SL-CAI（Supervised Learning Constitutional AI）

有害なプロンプトに対してモデルが初期応答を生成
Constitutionの各原則に照らしてモデル自身が応答を批判（Critique）
批判に基づいてモデルが応答を修正（Revision）
Critique-Revisionを2〜5回反復し、改善された応答をSFTデータとして使用

Stage 2: RL-CAI（RLAIF）

同一プロンプトに対する2つの応答について、モデルが原則に基づいて「どちらが原則により合致するか」を判定
AIが生成したペア比較ラベルで報酬モデルを訓練
通常のPPOで方策を最適化

Constitutionの設計

Constitutionは人間が事前に定義する原則リストであり、モデルの行動規範を言語で明示する：

原則カテゴリ	例	目的
無害性	「暴力・犯罪行為を促進する応答は避ける」	有害コンテンツの抑制
正直さ	「不確実な情報には不確実であることを明示する」	ハルシネーション低減
有用性	「質問に直接的かつ具体的に回答する」	回答品質の維持
倫理性	「差別・偏見を含む応答は避ける」

項目	RLHF（人間フィードバック）	RLAIF（AIフィードバック）
アノテーター	人間（$15〜40/時）	AIモデル（API コスト）
スケーラビリティ	数万件が実用上限	数百万件も可能
一貫性	IAA 70〜80%	95%以上（同一モデル）
バイアス	文化・個人差	モデル固有のバイアス
コスト	$50万〜500万	$1万〜10万
品質上限	人間の判断力が上限	元モデルの能力が上限
有害性評価	高精度（人間直感）	中〜高精度（原則依存）

メニュー

Constitutional AI（RLAIF）（コンスティテューショナルエーアイ）

メニュー

Constitutional AI（RLAIF）（コンスティテューショナルエーアイ）

この用語に関連するコンテンツ

概要

CAIの2段階プロセス

Stage 1: SL-CAI（Supervised Learning Constitutional AI）

Stage 2: RL-CAI（RLAIF）

Constitutionの設計

RLAIFと従来RLHFの比較

CAIの発展と派生手法

CAIの限界と課題

よくある質問（FAQ）

まとめ

関連用語