KVキャッシュエビクションとは？（ケーブイキャッシュエビクション）わかりやすく解説

KVキャッシュから重要度の低いトークンのKey-Valueペアを動的に破棄し、メモリ使用量を削減しながら生成品質を維持する技術。H2OやSnapKVが代表的手法。

エビクションの理論的根拠

Transformerの Self-Attention には「Attention Sparsity」（注意の疎性）という経験的特性がある:

多くのトークンのAttention重みは極めて小さく（0.001未満）、出力への寄与が無視できる

一部の「Heavy Hitter」トークンが全体のAttention分布の80〜90%を占める

この疎性パターンはレイヤー間・ヘッド間で比較的安定している

この性質により、上位5〜20%のトークンのK/Vだけを保持しても、生成品質をほぼ維持できる。

主要なエビクション手法

H2O (Heavy-Hitter Oracle)

2023年にMeta AIが提案。Attention Scoreの累積値に基づいてトークンの重要度を評価し、上位トークンのみをKVキャッシュに保持する。

動作: 各デコードステップでAttention Score行列を集計し、累積スコアの低いトークンを退避

保持率: 全トークンの20%保持で、LongBenchスコア95%以上を維持

メモリ削減: 最大80%のKVキャッシュメモリを削減

制約: Attention Score計算のオーバーヘッド（5〜10%のレイテンシ増加）

SnapKV

2024年に提案された手法で、各レイヤーのAttentionパターンを分析し、情報量の高い「観測ウィンドウ」からKVの重要度を推定する。

動作: プリフィル段階で各レイヤーの最終数百トークンをウィンドウとして使用し、K/Vの重要度を一括決定

特徴: デコード中のオンライン計算が不要（プリフィル時に一度だけ選択）

性能: 128K入力 → 4Kキャッシュ（96%圧縮）で精度98%維持

速度: プリフィル時のオーバーヘッドのみで、デコード速度は3〜4倍向上

StreamingLLM

MITが提案した「Attention Sink」理論に基づく手法。Transformerの最初の数トークンが特別なAttention集中先（Sink）として機能する現象を利用する。

: 先頭4トークン（Attention Sink）＋直近ウィンドウ（例: 4,096トークン）のみ保持

手法	保持率	LongBenchスコア	メモリ削減	追加レイテンシ	長距離依存
Full Cache	100%	100%	0%	なし	完全
H2O	20%	95%	80%	5〜10%	良好
SnapKV	3〜5%	98%	95〜97%	プリフィルのみ	良好
StreamingLLM	固定4K	85〜90%	97%+	なし	制限あり
Scissorhands	20〜30%	96%	70〜80%	3〜5%	良好

メニュー