KVキャッシュ（プロンプトキャッシング）とは？（ケーブイキャッシュ）わかりやすく解説

Transformer の Self-Attention 層で計算される Key-Value ペアを保存・再利用する仕組みで、プロンプトキャッシングの中核技術。

KVキャッシュ（プロンプトキャッシング）とは？（ケーブイキャッシュ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

KVキャッシュのメモリ構造

KVキャッシュの消費メモリは以下の要素で決まる。

KVキャッシュの総メモリ量は 2 * L * H * d * S * B * sizeof(dtype) で計算される。70Bモデルでシーケンス長128Kの場合、1リクエストあたり約40GBものメモリが必要になり、これがLLMサービングのボトルネックとなる。

手法	メモリ削減率	品質影響	実装例
GQA	4-8x	最小	Llama 2/3, Mistral
MQA	H x	小-中	PaLM, StarCoder
PagedAttention	断片化解消	なし	vLLM, SGLang
KV量子化 (INT8)	2x	最小	KIVI, QServe
KV量子化 (INT4)	4x	小	KVQuant, Atom