AIシステムの行動を人間の意図・価値観・倫理基準に一致させるための技術群の総称。RLHF、DPO、Constitutional AI、報酬モデリング、スケーラブル監視などを包含する。AI安全性研究の中核テーマであり、モデルの能力向上に伴い重要性が増している。
AIアライメント(AI Alignment)技術は、AIシステムの行動を人間の意図・価値観・倫理基準に一致させるための技術群の総称である。大規模言語モデル(LLM)の能力が急速に向上する中、モデルが有害な出力を生成したり意図しない行動を取るリスクへの対処として、AI安全性研究の中核テーマとなっている。
AIアライメント問題は以下の3層で構成される:
| 層 | 問題 | 例 |
|---|---|---|
| 外部アライメント | AIの目的関数と人間の真の意図の不一致 | 報酬ハッキング、Goodhartの法則 |
| 内部アライメント | 訓練目的と実行時の目的の不一致 | 目標の汎化失敗、分布シフト |
| スケーラブル監視 | 超知能AIを人間が監視できるか | 能力が人間を超えた場合の評価方法 |
人間の好みに基づいてモデルの出力分布を調整する手法群。
| 手法 | 年 | 開発元 | 特徴 |
|---|---|---|---|
| RLHF | 2022 | OpenAI | 報酬モデル + PPOによる方策最適化 |
| DPO | 2023 | Stanford | 報酬モデル不要の直接選好最適化 |
| KTO | 2024 | Contextual AI | 二値フィードバック(良い/悪い)で学習 |
| IPO | 2024 | Google DeepMind | DPOの過学習問題を正則化で解消 |
| ORPO | 2024 | KAIST | SFTと選好最適化を1ステップに統合 |
| SimPO | 2024 | UVA | 参照モデル不要のシンプルな選好最適化 |
明文化されたルールや原則に基づいてモデルの行動を制約する。
モデルの入出力を外部システムで検査・制御する。
将来のAIシステムが人間の能力を超えた場合、人間が直接評価することが不可能になる。この「スケーラブル監視」(Scalable Oversight)問題に対するアプローチ:
| アプローチ | 概要 | 研究例 |
|---|---|---|
| Debate | 2つのAIが議論し、人間が判定 | Irving et al., 2018 |
| Recursive Reward Modeling | AIが報酬モデルの学習を補助 | Leike et al., 2018 |
| Weak-to-Strong Generalization | 弱いモデルの監視で強いモデルを整合 | Burns et al., 2023(OpenAI) |
| Interpretability | モデル内部の推論過程を可視化 | Anthropic Mechanistic Interpretability |
| ベンチマーク | 測定対象 | 開発元 |
|---|---|---|
| TruthfulQA | 事実性・誤情報回避 | Lin et al. |
| BBQ(Bias Benchmark for QA) | 社会的バイアス | Parrish et al. |
| HarmBench | 有害出力の多角的評価 | Mazeika et al. |
| XSTest | 過剰安全性(false refusal)検出 | Röttger et al. |
アライメントは「モデルが人間の意図通りに動作すること」、安全性(safety)は「モデルが有害な出力をしないこと」を指す。安全性はアライメントの部分集合と見なされることが多い。
安全性のためにモデルの有用性や性能が低下する現象。RLHFでの過度な安全制約がモデルの「過剰拒否」(false refusal)を引き起こすケースが代表例。InstructGPT論文ではアライメント税の最小化が明示的な目標として設定された。
現在の手法は「弱いAI」のアライメントには有効だが、AGI(汎用人工知能)レベルの超知能AIに対しては理論的保証がない。スケーラブル監視研究やMechanistic Interpretabilityが次世代のアライメント基盤として期待されている。