Constitutional AI における無害性(Harmlessness)確保のための訓練手法で、有害応答の自動検出・修正と RLAIF による報酬モデル構築を組み合わせて安全なモデルを実現する
CAI Harmlessness トレーニングは、Constitutional AI フレームワークにおける無害性(Harmlessness)に特化した訓練プロセスである。AI モデルが有害な応答(暴力的内容、差別的表現、違法行為の助長など)を生成するリスクを最小化しつつ、有用性を維持することを目標とする。Anthropic の HHH(Helpful, Harmless, Honest)フレームワークの中核要素であり、Claude シリーズの安全性を支える技術基盤となっている。
Harmlessness トレーニングがカバーする有害カテゴリは広範に及ぶ。
| 訓練段階 | 手法 | データ量 | 精度 | 特徴 |
|---|---|---|---|---|
| SL フェーズ | 自己批評・修正ループ | 約 18 万ペア | 批評精度 92% | 多様な有害パターンをカバー |
| RM 訓練 | AI 生成の選好データ | 約 50 万ペア | Elo スコア 1,200+ | 人間ラベルなしで報酬モデル構築 |
| RL フェーズ | PPO + RLAIF | 約 10 万エピソード | 有害率 2.1%→0.3% | 最終的な安全性チューニング |
| 検証 | Red Teaming | 5,000+ 攻撃パターン | 防御成功率 97.8% | 実戦的な脆弱性テスト |
Harmlessness を過度に強化すると、モデルが安全な質問まで拒否する「過剰拒否(Over-refusal)」が発生する。
Q1: Harmlessness トレーニングで使う有害データはどこから来るのですか? A: Red Teaming チームが意図的に有害な質問を作成する方法と、実際のユーザーインタラクションから匿名化されたデータを収集する方法の 2 つがある。Anthropic は外部の Red Teaming 企業とも契約して多様な攻撃パターンを収集している。
Q2: 新しい有害パターン(例: AI による選挙介入)にはどう対応するのですか? A: 憲法に新原則を追加し、対応する Red Teaming データセットを作成して追加訓練を行う。2025 年の米国大統領選挙に向けて、Anthropic は選挙関連の原則を事前に追加した実績がある。
Q3: 他言語(日本語など)での Harmlessness 精度は英語と同等ですか? A: 英語が最も高精度で、日本語・中国語・韓国語などは英語比で 2-5% 精度が低下する傾向がある。Anthropic は多言語 Red Teaming データの拡充を進めており、Claude 4 シリーズでは日本語の有害検出精度が大幅に改善された。