KVキャッシュ最適化とは？（ケーブイキャッシュサイテキカ）わかりやすく解説

KIVI: Key を INT2、Value を INT4 で量子化。FP16比で最大75%削減、パープレキシティ劣化0.1未満
Atom: チャネル単位の外れ値対応INT4量子化。KV圧縮とAttention計算を融合したカスタムCUDAカーネルで4.7倍高速化
FlexGen INT4: CPUオフロード時のKV量子化。OPT-175Bを単一A100で実行可能に

LLM推論時のKVキャッシュのメモリ消費・帯域幅・レイテンシを削減するための技術群。量子化、エビクション、アーキテクチャ改良、システム最適化など多層的なアプローチがある。

KVキャッシュ最適化とは？（ケーブイキャッシュサイテキカ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

最適化手法の分類

KVキャッシュ最適化は以下の4つのレイヤーに分類できる:

モデル設計段階でKVキャッシュサイズを根本的に削減する手法:

Grouped Query Attention (GQA): 複数のQueryヘッドでK/Vヘッドを共有。Llama 3では32Qヘッド/8KVヘッドで4倍削減
Multi-Query Attention (MQA): 全Queryヘッドで1組のK/Vを共有。最大32倍削減だが品質トレードオフあり
Multi-Latent Attention (MLA): DeepSeek-V2/V3が採用。KVを低ランク潜在空間に射影し、93%以上のメモリ削減を実現
Cross-Layer KV Sharing: 隣接レイヤー間でKVを共有。CLA（Cross-Layer Attention）として研究が進む

手法	KVサイズ削減率	品質影響	採用モデル
MHA (ベースライン)	0%	なし	GPT-3, BERT
GQA (8グループ)	75%	最小	Llama 3, Mistral, Qwen2.5
MQA	96.9%	小〜中

手法	KVメモリ削減	スループット向上	品質維持率	実装難易度
GQA (設計時)	75%	2〜3×	99.5%	モデル再訓練必要
KIVI INT4	75%	1.5〜2×	99.9%	カスタムカーネル必要
H2O (20%保持)	80%	2×	97%	フレームワーク統合
SnapKV	96%	3〜4×	98%	フレームワーク統合
Paged Attention	最大60%	2〜4×	100%	vLLM利用で自動
Prefix Caching	可変	1.5〜10×	100%	SGLang利用で自動