ニューラルネットワークの中間層の活性化ベクトルから、モデルが内部的に保持している概念・知識・判断を線形プローブなどの手法で読み取る技術。モデルの「考えていること」を外部から非侵襲的に観測する解釈可能性の基盤手法。
Representation Reading(表現読み取り)は、LLMの中間層で生成される活性化ベクトルから、モデルが内部的にエンコードしている情報を読み取る技術である。2024年にAnthropicとMITの研究者らが体系化した手法群で、モデルの振る舞いを外から観察するだけでなく「モデルが何を知っていて、どう判断しているか」を内部から直接読み取ることを目指す。
Representation Readingの中核手法は線形プローブ(linear probe)である。特定の概念(例: 「この文は真か偽か」)に対する正解ラベル付きデータセットを用意し、モデルの中間層活性化を入力、正解ラベルを出力とする線形分類器を訓練する。この分類器の重みベクトルが、その概念がエンコードされている方向を示す。
| 概念カテゴリ | 具体例 | 典型的な精度 |
|---|---|---|
| 真偽判断 | 「地球は平らである」→偽 | 85-95% |
| 感情極性 | テキストの感情がポジティブ/ネガティブ | 90-98% |
| 言語識別 | 処理中テキストの言語 | 95%+ |
| 有害性検知 | 有害コンテンツの生成意図 | 80-90% |
| 不確実性 | モデルが回答に自信を持っているか | 70-85% |
モデルが事実と異なる情報を生成する「幻覚」が発生する際、内部の「不確実性」や「知識の有無」を示す活性化パターンが変化することが観測されている。Representation Readingでこのパターンを検知すれば、出力テキストのみを分析する従来手法より早期かつ正確に幻覚を発見できる可能性がある。
AIの安全性評価において、モデルが「建前上は安全な回答をしているが、内部的には有害なコンテンツを生成する能力を保持している」かどうかを検証する手段となる。表面的な出力だけでなく内部状態を監査することで、より信頼性の高い安全性評価が可能になる。
特定の概念がモデルのどのレイヤー・どのヘッドに強くエンコードされているかをマッピングすることで、モデルの内部構造の理解が進む。これはActivation SteeringやActivation Patchingの最適レイヤー選定にも直接的に活用される。
線形プローブは概念が線形にエンコードされている場合にのみ有効であり、非線形な表現は捉えられない。また、プローブの訓練データにバイアスがあると、読み取り結果も偏る。概念のラベリング自体が曖昧な場合(「創造性」「知性」など)、プローブの解釈が困難になる。
A: Representation Readingは活性化の「読み取り(観測)」であり、モデルの振る舞いを変えません。Activation Steeringは活性化の「書き込み(操作)」であり、モデルの出力を変更します。両者は相補的で、Readingで概念の方向を特定し、Steeringでその方向に介入するという流れが一般的です。
A: 概念の種類によって異なります。構文情報は浅いレイヤー、事実知識は中間レイヤー、タスク固有の判断は深いレイヤーに集中する傾向があります。全レイヤーをスキャンして最高精度のレイヤーを特定するのが一般的なアプローチです。
A: 二値分類の場合、各クラス50-200サンプル程度で十分な精度が得られることが多いです。活性化ベクトルは高次元ですが、概念が線形にエンコードされている場合は少数サンプルでも識別面が安定します。