LLMの中間層活性化を疎なオーバーコンプリート基底に分解するSparse Autoencoderを訓練し、個別の解釈可能な特徴量(feature)を特定・操作する手法。Anthropicの大規模研究で注目された。
SAE(Sparse Autoencoder)によるLLM特徴量分析とは、Transformerの中間層におけるMLPやアテンション出力の活性化を、元の次元数よりはるかに多い「オーバーコンプリート基底」に疎に分解するオートエンコーダーを訓練し、個々の基底ベクトルを「解釈可能な特徴量(feature)」として分析・操作する手法である。
LLMの中間層活性化は典型的に4096次元(Llama 2-7B)や12288次元(GPT-4クラス)のベクトルである。しかし、モデルが内部的にエンコードしている概念の数はこの次元数をはるかに超えると考えられている。これは「スーパーポジション仮説(Superposition Hypothesis)」と呼ばれ、Elhage et al.(2022)が提唱した。
スーパーポジション仮説によれば、モデルは限られた次元数の中に多数の概念を「重ね合わせ」てエンコードしている。これは圧縮センシングや辞書学習と類似した構造であり、適切な疎分解を行えば個々の概念を分離できるはずである。SAEはまさにこの分離を実行する手法である。
SAEの構造は単純なオートエンコーダーであるが、エンコーダー出力にL1スパース性制約を課す点が特徴的である:
エンコーダー: f = ReLU(W_enc @ x + b_enc) # x: 活性化, f: 疎な特徴量
デコーダー: x_hat = W_dec @ f + b_dec # 再構成
損失関数: L = MSE(x, x_hat) + λ * L1(f) # 再構成誤差 + スパース性
| パラメータ | 典型的な値 | 説明 |
|---|---|---|
| 入力次元 | 4096-12288 | モデルの隠れ層次元 |
| 特徴量数 | 16384-4194304 | 入力次元の4x-1000x |
| 活性L0(平均活性特徴量数) | 50-300 | 同時に活性化する特徴量数 |
| λ(スパース性係数) | 1e-4-1e-2 | L1正則化の強さ |
| 訓練トークン数 | 1B-100B | 大規模データでの訓練が必要 |
Anthropicは2024年5月に「Scaling Monosemanticity」論文(Templeton et al., 2024)を発表し、Claude 3 Sonnetの中間層に対して400万特徴量のSAEを訓練した。この研究は以下の画期的な発見を含む:
| 観点 | SAE | CAA |
|---|---|---|
| アプローチ | ボトムアップ(教師なし辞書学習) | トップダウン(対照学習) |
| 事前準備 | SAE訓練に大規模計算が必要 | プロンプトペア作成のみ |
| 粒度 | 個別の微細な特徴量レベル | 概念レベル(より粗い) |
| 解釈可能性 | 各特徴量が何を表すかを事後的に分析 | 操作対象の概念は事前に指定 |
| 計算コスト | 訓練: 高い / 推論時: 中程度 | 訓練: 不要 / 推論時: 低い |
| 精度 | 高い(個別特徴量の操作) | 中程度(概念全体の操作) |
Q1: SAEは自分でも訓練できるのか? A: オープンソース実装が複数公開されている(SAELens、TransformerLens等)。Llama 2-7Bクラスのモデルに対して16384特徴量のSAEであれば、A100 1台で数時間-数日程度で訓練可能である。
Q2: SAEの特徴量は「ニューロン」とは何が違うのか? A: 個々のニューロンは通常「多義的(polysemantic)」であり、複数の無関係な概念に反応する。SAE特徴量は「単義的(monosemantic)」になるよう訓練されており、1つの概念に対応することを目指す。
Q3: Golden Gate Claude実験は安全性上の懸念はないのか? A: Anthropicはこの実験を「モデル内部の理解を深めるための研究」と位置づけている。特徴量操作でモデルの安全ガードレールをバイパスできる可能性は認識されており、SAE研究自体が安全性強化に不可欠だと主張している。