KVキャッシュ最適化とは？（ケーブイキャッシュサイテキカ）わかりやすく解説

Q: KVキャッシュ最適化とは？

LLM推論時にTransformerのAttention計算で生成されるKey-Value（KV）ペアをGPUメモリ上に効率的にキャッシュ・管理する技術群で、メモリ使用量とレイテンシの両方を削減する

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

KVキャッシュ最適化とは？（ケーブイキャッシュサイテキカ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

主な特徴・仕組み

PagedAttention（vLLM）: KVキャッシュを固定サイズのページ（通常16トークン分）に分割し、OSの仮想メモリのように非連続メモリ割り当てを行う。メモリ断片化を95%以上削減し、同時処理可能なリクエスト数を2〜4倍に向上
GQA（Grouped-Query Attention）: Llama 3、Gemma 2等が採用。64ヘッドのQueryに対してKVヘッド数を8に削減（8:1グループ化）。KVキャッシュサイズを1/8に圧縮しつつ、MHA（Multi-Head Attention）と同等の精度を維持
MQA（Multi-Query Attention）: 全QueryヘッドがKVペアを1組だけ共有。KVキャッシュサイズを1/64に圧縮するが、品質低下のリスクがGQAより高い。Falcon、StarCoder等が採用
KVキャッシュ量子化: KVテンソルをFP16からINT8/INT4に量子化。メモリ使用量を50〜75%削減。vLLMの --kv-cache-dtype fp8 オプションで利用可能
Sliding Window Attention: Mistral 7Bが採用。直近の4,096トークンのKVキャッシュのみ保持し、それ以前は破棄。メモリ使用量を一定に保つが、超長文コンテキストでは情報損失が発生
Prefix Caching: 共通のシステムプロンプトのKVキャッシュを複数リクエスト間で共有。同一プレフィックスの場合、Prefill計算をスキップしてTTFTを最大10倍短縮
RadixAttention（SGLang）: Prefix Cachingをラディックスツリー（基数木）で管理し、部分一致するプレフィックスの再利用を最大化

スペック比較表

最適化手法	メモリ削減率	速度影響	精度影響	代表的な採用例
PagedAttention	断片化95%削減	スループット2〜4x

メニュー

KVキャッシュ最適化（ケーブイキャッシュサイテキカ）

メニュー

KVキャッシュ最適化（ケーブイキャッシュサイテキカ）

この用語に関連するコンテンツ

概要

主な特徴・仕組み

スペック比較表

具体例・対応製品

選び方・注意点

関連用語との違い

よくある質問（FAQ）

まとめ

関連用語