ニューラルネットワークの内部活性化ベクトル(activation)を直接操作・解析することでモデルの振る舞いを制御・理解する技術分野の総称。プロンプトエンジニアリングがテキスト入力を調整するのに対し、Activation Engineeringはモデル内部の表現空間に直接介入する。
Activation Engineering(活性化エンジニアリング)は、大規模言語モデル(LLM)の内部で生成される活性化ベクトル(activation vector)を直接読み取り・操作することで、モデルの出力や振る舞いを制御・解釈する技術体系である。2023年にAnthropicの研究チームが体系的な手法を提示して以降、LLMの安全性制御と解釈可能性の両面で急速に発展している。
プロンプトエンジニアリングはモデルの入力テキストを工夫する「外側からの制御」であるのに対し、Activation Engineeringはトランスフォーマーの各レイヤーで生成される高次元ベクトルに直接介入する「内側からの制御」である。プロンプトは自然言語の曖昧さに制約されるが、活性化ベクトルは数学的に定義された方向と大きさを持つため、より精密で再現性の高い制御が可能になる。
プロンプトインジェクション攻撃ではプロンプトベースの安全策が迂回されることがあるが、活性化レベルでの介入はモデルの内部表現に直接作用するため、テキスト操作による回避が原理的に困難である。これがAI安全性研究でActivation Engineeringが注目される核心的理由である。
トランスフォーマーアーキテクチャでは、各レイヤーの出力が残差ストリーム(residual stream)に加算されていく。この残差ストリーム上のベクトルが「活性化」であり、モデルが処理中の概念・感情・意図などの情報を高次元空間上の方向としてエンコードしている。
Activation Engineeringの理論的基盤は「線形表現仮説(Linear Representation Hypothesis)」である。これは、ニューラルネットワークが概念を活性化空間上の線形方向(ベクトル)として表現するという仮説で、多くの実験的証拠が蓄積されている。「正直さ」「有害性」「特定言語」といった抽象概念が、それぞれ特定の方向ベクトルとして識別・操作可能であることが示されている。
| 操作手法 | 介入タイミング | 主な用途 | 計算コスト |
|---|---|---|---|
| Activation Addition | 推論時(各レイヤー) | 振る舞い制御 | 低(ベクトル加算のみ) |
| Activation Patching | 推論時(特定位置) | 因果分析 | 中(比較実行が必要) |
| Representation Reading | 推論時(読み取り専用) | 内部状態の解釈 | 低(線形プローブ) |
| Steering Vector | 推論時(指定レイヤー) | 方向性制御 | 低(事前計算済みベクトル) |
Activation Engineeringの最大の応用先はLLMの安全性制御である。有害な出力を生成する方向ベクトルを特定し、その方向への活性化を抑制することで、ファインチューニングなしにモデルの安全性を向上させられる。従来のRLHF(人間のフィードバックによる強化学習)と比較して、計算コストが桁違いに低く、特定の振る舞いだけを精密に制御できる利点がある。
A: はい。内部の活性化ベクトルを読み取り・操作するため、モデルの中間層出力にアクセスできるオープンウェイトモデル(Llama、Mistral、Gemma等)が前提となります。API経由でのみ利用可能なクローズドモデルでは直接的なActivation Engineeringは行えません。
A: 両者は補完関係にあります。Activation Engineeringはモデル提供者側の安全性制御やアライメント調整に適しており、エンドユーザーの日常的なタスク指示にはプロンプトエンジニアリングが引き続き有効です。
A: 安全性ガードレールを無効化する方向ベクトルの発見・公開は悪用リスクがあります。このため、Activation Engineeringの研究では責任ある開示(responsible disclosure)のプロトコルが議論されています。