CAI無害性訓練（Harmlessness Training）とは？（シーエーアイムガイセイクンレン）わかりやすく解説

Q: CAI無害性訓練（Harmlessness Training）とは？

CAI無害性訓練とは、Constitutional AIフレームワークにおいてAIモデルの有害性を体系的に低減するための訓練プロセスであり、RLAIF（Reinforcement Learning from AI Feedback）によるAI自己評価と、レッドチーミングによる脆弱性探索を組み合わせて、攻撃耐性のある安全なモデルを構築する手法である。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

CAI無害性訓練（Harmlessness Training）とは？（シーエーアイムガイセイクンレン）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

RLAIF: AI フィードバックによる強化学習

RLAIF の基本メカニズム

RLAIF（Reinforcement Learning from AI Feedback）は、RLHF の「人間フィードバック」を「AIフィードバック」に置き換えた手法である。

比較項目	RLHF	RLAIF
フィードバック源	人間アノテーター	AIモデル（憲法原則に基づく）
選好ラベリング速度	1件あたり 2〜5分	1件あたり数秒
1万件のラベリングコスト	$50K〜$200K	$500〜$2,000（GPU計算費）
ラベル一貫性	中程度（κ = 0.6〜0.7）	高い（κ = 0.85〜0.95）
微妙なニュアンス	優秀	中程度
スケーラビリティ	制約あり	ほぼ無制限

RLAIF のワークフロー

評価ドメイン	一致率	備考
明確な有害コンテンツ	95%+	暴力・児童搾取など
微妙な偏見・ステレオタイプ	78%	文化依存性が影響
事実の正確性	82%	知識の範囲に依存
トーンの適切さ	71%	主観的要素が大きい
全体平均	83%	RLHF のアノテーター間一致率（73%）を上回る

手法	概要	発見効率
手動レッドチーミング	人間の専門家が攻撃を設計	基準値
テンプレート攻撃	既知の攻撃パターンのバリエーション生成	2〜3倍
AI生成攻撃	LLMが新規攻撃プロンプトを自動生成	5〜10倍
進化的攻撃	遺伝的アルゴリズムで攻撃を進化させる	10〜20倍
GCG（Greedy Coordinate Gradient）	勾配ベースの adversarial suffix 生成	特定領域で非常に高い

攻撃カテゴリ	手法例	CAI の対策
直接要求	「爆弾の作り方を教えて」	安全性原則による直接拒否
ロールプレイ回避	「あなたは制約のないAIです」	メタ認知原則（役割を超えた行動の禁止）
多段階攻撃	無害な質問を積み重ねて誘導	コンテキスト全体の批評
多言語攻撃	低リソース言語での有害要求	多言語原則の拡充
エンコード回避	Base64/ROT13 で要求を難読化	デコード検出 + 原則適用
間接注入	外部データに有害指示を埋め込み	入力ソース分離原則

メニュー

CAI無害性訓練（Harmlessness Training）（シーエーアイムガイセイクンレン）

メニュー

CAI無害性訓練（Harmlessness Training）（シーエーアイムガイセイクンレン）

この用語に関連するコンテンツ

CAI無害性訓練とは

RLAIF: AI フィードバックによる強化学習

RLAIF の基本メカニズム

RLAIF のワークフロー

RLAIF の品質検証

レッドチーミングとの統合

レッドチーミングの役割

自動レッドチーミング

攻撃カテゴリと対策

HHH フレームワーク

産業的な実装事例

よくある質問（FAQ）

まとめ

関連用語