KVキャッシュ量子化とは？（ケーブイキャッシュリョウシカ）わかりやすく解説

Key量子化: チャネル方向（トークン間）に量子化。KeyはAttention計算で内積の一方となるため、チャネル方向の外れ値が品質に影響しやすい。INT2まで圧縮可能
Value量子化: トークン方向（チャネル間）に量子化。Valueは加重和で混合されるため、トークン方向が安定。INT4で十分な品質
非対称量子化: KeyをINT2、ValueをINT4とする非対称構成で、FP16比75%のメモリ削減
品質: Llama 2 70Bでパープレキシティ劣化0.05未満（WikiText-2）

KVキャッシュに格納されるKey-Valueテンソルのデータ精度をFP16からINT8/INT4に低減し、メモリ使用量を50〜75%削減する技術。KIVIやAtomが代表的手法。

KVキャッシュ量子化とは？（ケーブイキャッシュリョウシカ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

重み量子化との違い

2024年に提案された手法で、KeyとValueに異なる量子化戦略を適用する:

構成	KVメモリ	パープレキシティ劣化	スループット	推奨用途
FP16 (ベースライン)	100%	0	1×	品質最優先
INT8 対称	50%	<0.02	1.3×	安全な選択
INT4 対称	25%	<0.1	1.8×	バランス型
KIVI (K2V4)	25%	<0.05	2.0×	メモリ制約環境
Atom INT4 混合	27%	<0.05	4.7×	高スループット