LLMキャッシュとは？（エルエルエムキャッシュ）わかりやすく解説

LLM推論の結果やモデルの中間状態を保存・再利用する技術の総称。完全一致キャッシュ、セマンティックキャッシュ、KVキャッシュ、プロンプトキャッシュなど複数の手法を包含し、推論コスト削減・レイテンシ改善・スループット向上を目的とする。

LLMキャッシュとは？（エルエルエムキャッシュ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

キャッシュ手法の分類

手法	キャッシュ対象	判定方式	適用レイヤー	コスト削減率
完全一致キャッシュ	最終応答	文字列一致	アプリケーション	低〜中
セマンティックキャッシュ	最終応答	ベクトル類似度	アプリケーション	中〜高
KVキャッシュ	Attention KV	トークン列一致	モデル推論	高（prefix共有時）
プロンプトキャッシュ	プレフィックス処理結果	プレフィックス一致	APIプロバイダ	中（50%〜90%割引）
ディスクキャッシュ

プロバイダ	キャッシュ機能	割引率	最小プレフィックス	有効期間
Anthropic	Prompt Caching	入力90%割引	1,024トークン	5分（自動延長）
OpenAI	Automatic Caching	入力50%割引	1,024トークン	最大1時間
Google	Context Caching	入力75%割引	32,768トークン	設定可能
DeepSeek	Disk Caching	入力90%割引	なし	セッション内