LLMキャッシュ技術とは？（エルエルエムキャッシュギジュツ）わかりやすく解説

vLLM 0.6+: PagedAttention v2 + Automatic Prefix Caching（APC）を標準搭載。NVIDIA A100/H100で最大3.5xスループット改善
SGLang 0.3+: RadixAttention によるツリーベースのプレフィックスキャッシュ。マルチターン会話で最大5xスループット
TensorRT-LLM 0.12+: NVIDIA製推論エンジン。KVキャッシュのFP8量子化に対応し、H100でメモリ使用量を50%削減
llama.cpp: ローカル推論でのKVキャッシュ管理。GGUF形式モデルでQ4_K_M量子化と組み合わせ

LLMの推論コストと応答遅延を削減するためのキャッシュ技術群。KVキャッシュ、セマンティックキャッシュ、プロンプトキャッシュ、プレフィックスキャッシュなど複数のレイヤーで最適化を行い、同一・類似クエリへの再計算を回避する仕組み。

LLMキャッシュ技術とは？（エルエルエムキャッシュギジュツ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

キャッシュ技術の比較