AIモデルに安全性やアラインメント(人間の意図への整合性)を組み込むことで生じる性能低下やコスト増加のこと。RLHF等の手法により有害出力を抑制する代わりに、タスク遂行能力や応答速度が犠牲になるトレードオフを指す。
Alignment Taxとは、AI(特に大規模言語モデル)に安全性制約やアラインメント処理を適用することによって生じる性能コストの総称である。Paul Christiano(Alignment Research Center創設者)が概念化した用語であり、安全なAIを構築するために支払わなければならない「税金」をメタファーとして表現している。
LLMの事前学習(pretraining)では、インターネット上の大量のテキストから言語パターンを学習する。この段階のモデルは有害なコンテンツや偏見も含むあらゆるパターンを学習しており、そのままでは安全なサービスとして提供できない。
アラインメント処理(RLHF・DPO・Constitutional AI等)を適用すると、有害出力を抑制し人間の好みに合った応答を生成するようになるが、同時にいくつかの性能低下が生じる。
| Alignment Taxの種類 | 具体例 | 影響度 |
|---|---|---|
| 能力税 | 事前学習モデルが解けた難問をアラインメント後に解けなくなる | 中〜高 |
| 拒否税 | 安全な質問まで過度に拒否する(over-refusal) | 高 |
| 冗長税 | 安全な回答のために不必要に長い免責文を付加する | 低〜中 |
| 速度税 | アラインメント推論(ガードレール・分類器)による遅延 | 低 |
| コスト税 | RLHF用の人間フィードバック収集・学習にかかる費用 | 高 |
GPT-4のテクニカルレポートでは、事前学習モデルとRLHF後モデルの間でいくつかのベンチマークにおける性能差が報告されている。特に数学(MATH)やコーディング(HumanEval)では、アラインメント処理後にスコアが数ポイント低下するケースが確認されている。
Over-refusal(過剰拒否)は最も顕著なAlignment Taxの一つである。2024年のGemini画像生成における歴史的人物の不適切な多様性表現や、Claude/GPT-4の医学・化学・セキュリティに関する過度な回答拒否は、安全側に振りすぎた結果として広く知られている。
Alignment Taxを減らしつつ安全性を維持する研究が活発に進められている。
理論的にはゼロに近づけることは可能だが、完全にゼロにすることは困難である。安全性と能力はトレードオフの関係にあり、「税率」を下げることが現実的な目標となる。
ある。Llama 3やMistralのチャットモデル(-Instruct/-Chat版)は、ベースモデルと比較してアラインメント処理による性能変化がベンチマークで確認されている。オープンソースの利点は、ユーザーがAlignment Taxの程度を選択できる点にある。
同一ファミリーのベースモデルとチャットモデルのベンチマーク差が大きい場合、Alignment Taxが高いと判断できる。また、頻繁にover-refusalが報告されているモデルは安全側に振りすぎている可能性が高い。