KVキャッシュとは？（ケーブイキャッシュ）わかりやすく解説

Q: KVキャッシュとは？

Transformerモデルの推論時に過去のKey-Valueペアをメモリに保持し、同じ計算の繰り返しを回避して生成速度を高速化するメカニズム。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

KVキャッシュとは？（ケーブイキャッシュ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

KVキャッシュの動作原理

Transformerの自己回帰生成では、各ステップで現在のトークンのQueryと過去全トークンのKey/Valueを使ってAttentionスコアを計算する。KVキャッシュがない場合、トークン数Nに対して計算量はO(N²)で増大するが、KVキャッシュを使えばステップあたりの新規計算はO(N)に抑えられる。

具体的な動作フロー:

Prefill Phase（プリフィル段階）: 入力プロンプト全体を一括処理し、全レイヤーのK/Vテンソルを計算してキャッシュに格納
Decode Phase（デコード段階）: 新トークンを1つずつ生成し、そのトークンのK/Vのみを既存キャッシュに追加
Attention計算: 現在のQueryと蓄積されたK/V全体でAttentionを計算
次トークン予測: Attention出力からロジットを計算し、サンプリング戦略に従って次のトークンを選択

メモリ消費量の計算

KVキャッシュのメモリ使用量は以下の式で算出できる:

メモリ(bytes) = 2 × レイヤー数 × ヘッド数 × ヘッド次元 × シーケンス長 × バッチサイズ × データ型サイズ

モデル	レイヤー数	ヘッド数	ヘッド次元	最大長	FP16 KVキャッシュ
Llama 3.1 8B	32	8 (GQA)	128	128K

技術	カテゴリ	効果	代表的実装
Paged Attention	メモリ管理	メモリ利用率95%以上	vLLM, SGLang
GQA/MQA	アーキテクチャ	KVサイズ1/4〜1/8	Llama 3, Mistral
KV圧縮 (INT4/INT8)	量子化	メモリ50〜75%削減	KIVI, Atom
トークン刈り込み	エビクション	動的メモリ削減	H2O, SnapKV
Prefix Caching	再利用	プリフィル時間90%削減	SGLang, vLLM

メニュー

KVキャッシュ（ケーブイキャッシュ）

メニュー

KVキャッシュ（ケーブイキャッシュ）

この用語に関連するコンテンツ

KVキャッシュとは

KVキャッシュの動作原理

メモリ消費量の計算

KVキャッシュの課題

メモリボトルネック

レイテンシへの影響

フラグメンテーション

主要な最適化技術

関連技術との位置づけ

よくある質問（FAQ）

まとめ

関連用語