LLMプロンプトキャッシングとは？（エルエルエムプロンプトキャッシング）わかりやすく解説

LLM推論時に同一または類似のプロンプトに対する計算結果をキャッシュし、応答速度の向上とコスト削減を実現する最適化技術の総称。

LLMプロンプトキャッシングとは？（エルエルエムプロンプトキャッシング）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

プロンプトキャッシングの仕組み

プロンプトキャッシングの基本原理は、Transformer の推論パイプラインにおける KV キャッシュの永続化にある。通常の推論フローでは以下のステップが発生する。

このうちステップ3が計算コストの大部分を占める。プロンプトキャッシングでは、入力プロンプトの共通プレフィックス部分について計算済みの KV ペアを GPU メモリまたは高速ストレージに保存し、後続リクエストでは保存済みの KV ペアを読み込んで残りの部分のみ計算する。

プロバイダ	機能名	キャッシュ TTL	最小トークン数	料金割引	明示的制御
Anthropic (Claude)	Prompt Caching	5分（利用で延長）	1,024	入力90%OFF / 書込25%UP	cache_control ブレークポイント
OpenAI (GPT-4o)	Automatic Caching	5-10分	1,024	入力50%OFF	自動（制御不可）
Google (Gemini)	Context Caching	最大48時間（設定可）	32,768	入力75%OFF / 保存料別途	明示的キャッシュ作成 API
DeepSeek	Prompt Caching	数分	64	入力90%OFF	自動（ヒット率表示）

[システムプロンプト（固定）] → [ツール定義（固定）] → [参照ドキュメント（セッション固定）] → [会話履歴（可変）] → [ユーザー入力（可変）]

ユースケース	プロンプト長	キャッシュ対象	レイテンシ削減	コスト削減
チャットボット	2,000-5,000トークン	システムプロンプト	30-50%	40-60%
RAGシステム	10,000-50,000トークン	ドキュメント+プロンプト	50-70%	60-80%
コード生成エージェント	20,000-100,000トークン	ツール定義+コンテキスト	60-85%	70-90%
ドキュメント分析	50,000-200,000トークン	参照ドキュメント	70-90%	80-95%