LLMトークンエコノミーとは？（エルエルエムトークンエコノミー）わかりやすく解説

CPQ（Cost Per Query）: 1リクエストあたりの平均コスト。入力500トークン＋出力200トークンのGPT-4oクエリで$0.00325
CPT（Cost Per Task）: タスク完了に必要な総コスト。マルチターン会話では平均5〜8ターンで$0.02〜$0.05
Token Efficiency Ratio: 有効出力トークン÷総出力トークン。冗長な出力を抑制し0.85以上を目標とする
Cache Hit Rate: キャッシュヒット率。システムプロンプト固定で60〜80%が達成可能

LLMの利用コストを決定するトークン単位の経済モデル。入力・出力トークン数に基づく従量課金体系と、プロンプトキャッシュ・バッチAPI・Provisioned Throughputなどを組み合わせた費用対効果の最適化フレームワークを指す。

LLMトークンエコノミーとは？（エルエルエムトークンエコノミー）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

トークン課金の基本構造

LLMのトークン課金は「入力トークン」と「出力トークン」の2軸で構成される。一般に出力トークンは入力の3〜5倍の単価が設定される。

モデル	入力（$/1Mトークン）	出力（$/1Mトークン）	コンテキスト長	備考
GPT-4o	$2.50	$10.00	128K	バッチAPI 50%割引
GPT-4o mini	$0.15	$0.60	128K	軽量タスク向け
Claude 4 Sonnet	$3.00	$15.00	200K	キャッシュ書込 $3.75
Claude 4 Haiku	$0.80	$4.00	200K	高速レスポンス

戦略	OpenAI	Anthropic	Google	DeepSeek
キャッシュ割引	50%自動	90%（書込+25%）	75%	90%（$0.07）
バッチ割引	50%	50%	なし	なし
予約容量	あり	あり	あり	なし
無料枠	なし	なし	1日1,500リクエスト	API無料枠あり
推論トークン課金	o1/o3で別途	Extended Thinking含む	Flash Thinking含む	R1で$0.55/1M