Representation Readingとは？（レプレゼンテーションリーディング）わかりやすく解説

Q: Representation Readingとは？

ニューラルネットワークの中間層の活性化ベクトルから、モデルが内部的に保持している概念・知識・判断を線形プローブなどの手法で読み取る技術。モデルの「考えていること」を外部から非侵襲的に観測する解釈可能性の基盤手法。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Representation Readingとは？（レプレゼンテーションリーディング）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

線形プローブの仕組み

基本原理

Representation Readingの中核手法は線形プローブ（linear probe）である。特定の概念（例: 「この文は真か偽か」）に対する正解ラベル付きデータセットを用意し、モデルの中間層活性化を入力、正解ラベルを出力とする線形分類器を訓練する。この分類器の重みベクトルが、その概念がエンコードされている方向を示す。

訓練プロセス

ラベル付きプロンプト群を用意（例: 真の文100件、偽の文100件）
各プロンプトをモデルに入力し、指定レイヤーの活性化ベクトルを収集
活性化ベクトル→ラベルの線形分類器（ロジスティック回帰等）を訓練
分類精度が高ければ、そのレイヤーがその概念を線形にエンコードしていることの証拠

読み取り可能な情報の例

概念カテゴリ	具体例	典型的な精度
真偽判断	「地球は平らである」→偽	85-95%
感情極性	テキストの感情がポジティブ/ネガティブ	90-98%
言語識別	処理中テキストの言語	95%+
有害性検知	有害コンテンツの生成意図	80-90%
不確実性	モデルが回答に自信を持っているか	70-85%

Representation Readingの応用

幻覚（ハルシネーション）検知

モデルが事実と異なる情報を生成する「幻覚」が発生する際、内部の「不確実性」や「知識の有無」を示す活性化パターンが変化することが観測されている。Representation Readingでこのパターンを検知すれば、出力テキストのみを分析する従来手法より早期かつ正確に幻覚を発見できる可能性がある。

モデル内部監査

AIの安全性評価において、モデルが「建前上は安全な回答をしているが、内部的には有害なコンテンツを生成する能力を保持している」かどうかを検証する手段となる。表面的な出力だけでなく内部状態を監査することで、より信頼性の高い安全性評価が可能になる。

概念の局在化

特定の概念がモデルのどのレイヤー・どのヘッドに強くエンコードされているかをマッピングすることで、モデルの内部構造の理解が進む。これはActivation SteeringやActivation Patchingの最適レイヤー選定にも直接的に活用される。

制限事項

線形プローブは概念が線形にエンコードされている場合にのみ有効であり、非線形な表現は捉えられない。また、プローブの訓練データにバイアスがあると、読み取り結果も偏る。概念のラベリング自体が曖昧な場合（「創造性」「知性」など）、プローブの解釈が困難になる。

FAQ

Q: Representation ReadingはActivation Steeringとどう違いますか？

A: Representation Readingは活性化の「読み取り（観測）」であり、モデルの振る舞いを変えません。Activation Steeringは活性化の「書き込み（操作）」であり、モデルの出力を変更します。両者は相補的で、Readingで概念の方向を特定し、Steeringでその方向に介入するという流れが一般的です。

Q: どのレイヤーが最も情報量が多いですか？

A: 概念の種類によって異なります。構文情報は浅いレイヤー、事実知識は中間レイヤー、タスク固有の判断は深いレイヤーに集中する傾向があります。全レイヤーをスキャンして最高精度のレイヤーを特定するのが一般的なアプローチです。

Q: プローブの訓練にはどれくらいのデータが必要ですか？

A: 二値分類の場合、各クラス50-200サンプル程度で十分な精度が得られることが多いです。活性化ベクトルは高次元ですが、概念が線形にエンコードされている場合は少数サンプルでも識別面が安定します。

メニュー

Representation Reading（レプレゼンテーションリーディング）

この用語に関連するコンテンツ

メニュー

Representation Reading（レプレゼンテーションリーディング）

この用語に関連するコンテンツ