OpenAI・Anthropic・Google・DeepSeek等のLLMプロバイダーが採用するトークン単位の従量課金体系。入力と出力で異なる単価を設定し、バッチAPI割引・プロンプトキャッシュ割引・予約容量契約等の多層的な料金最適化オプションを提供する。
LLMトークン課金モデルとは、大規模言語モデルのAPI利用料金をトークン単位で課金する従量制の料金体系である。2026年現在、OpenAI・Anthropic・Google・DeepSeek・Mistralなど主要プロバイダーはすべてこの方式を採用し、入力トークンと出力トークンに異なる単価を設定している。
LLMの課金モデルは2020年のGPT-3 API公開時に確立された。当初は入力・出力同一価格だったが、GPT-4以降は出力トークンの生成コスト(GPU推論時間)が入力の処理コストを大きく上回ることから、非対称価格が標準となった。2026年時点での入出力価格比は概ね1:3〜1:5である。
市場競争の激化により、2024年から2026年にかけてトークン単価は平均で年40〜60%下落している。GPT-4 Turboの入力$10.00/1Mが、GPT-4oでは$2.50/1Mに、GPT-4o miniでは$0.15/1Mまで低下した。
| プロバイダー | モデル | 入力$/1M | 出力$/1M | キャッシュ入力 | バッチ割引 |
|---|---|---|---|---|---|
| OpenAI | GPT-4o | $2.50 | $10.00 | $1.25(50%) | 50% |
| OpenAI | GPT-4o mini | $0.15 | $0.60 | $0.075(50%) | 50% |
| OpenAI | o3 | $10.00 | $40.00 | $5.00(50%) | 50% |
| OpenAI | o3-mini |
| $1.10 |
| $4.40 |
| $0.55(50%) |
| 50% |
| Anthropic | Claude 4 Opus | $15.00 | $75.00 | $1.50(90%) | 50% |
| Anthropic | Claude 4 Sonnet | $3.00 | $15.00 | $0.30(90%) | 50% |
| Anthropic | Claude 4 Haiku | $0.80 | $4.00 | $0.08(90%) | 50% |
| Gemini 2.0 Pro | $1.25 | $5.00 | $0.3125(75%) | なし |
| Gemini 2.0 Flash | $0.075 | $0.30 | $0.01875(75%) | なし |
| DeepSeek | DeepSeek V3 | $0.27 | $1.10 | $0.07(74%) | なし |
| Mistral | Mistral Large | $2.00 | $6.00 | なし | なし |
最も基本的な方式。使用したトークン数×単価で請求。最小利用量の制約なし。スタートアップや開発フェーズに最適。
リアルタイム性を犠牲に50%の割引を得る方式。OpenAI・Anthropicが提供。24時間以内の完了保証付き。大量のテキスト分析・評価・分類タスクに最適。月間$1,000以上の利用で$500以上の節約効果。
月間・年間契約で固定容量を確保する方式。OpenAIのReserved Capacity、AnthropicのProvisioned Throughput、AWSのBedrock Provisioned Throughput。月間$10,000以上の利用で20〜40%のディスカウント。レイテンシ保証付き。
Google Gemini APIは1日1,500リクエストの無料枠を提供。AWS Bedrockは新規アカウントに$300クレジット。Azure OpenAI Serviceも$200の初回クレジットあり。プロトタイピングや学習用途に活用可能。
月間100万リクエスト、平均入力500トークン・出力200トークンの場合:
| モデル | 月間入力コスト | 月間出力コスト | 合計 | キャッシュ適用後 |
|---|---|---|---|---|
| GPT-4o | $1,250 | $2,000 | $3,250 | $1,625(CR50%) |
| GPT-4o mini | $75 | $120 | $195 | $97.50 |
| Claude 4 Sonnet | $1,500 | $3,000 | $4,500 | $1,650(CR90%) |
| Gemini 2.0 Flash | $37.50 | $60 | $97.50 | $48.75 |
| DeepSeek V3 | $135 | $220 | $355 | $125(CR74%) |
※CR = Cache Rate(キャッシュヒット率70%想定)
Q1: 最もコスパの良いモデルはどれか? A: 用途による。汎用タスクではGemini 2.0 Flash($0.075/$0.30)が最安。品質重視ならDeepSeek V3($0.27/$1.10)がGPT-4oクラスの性能を1/10の価格で提供。日本語品質重視ならClaude 4 Haiku($0.80/$4.00)が費用対効果に優れる。
Q2: プロンプトキャッシュの効果はどれくらいか? A: システムプロンプト1,000トークン+ツール定義500トークンを固定している場合、キャッシュヒット率70%で月間コストの35〜45%が削減される。Anthropicの90%割引が最も効果が大きい。
Q3: 価格下落は今後も続くか? A: 2024-2026年の実績では年40〜60%の下落が継続している。Googleの無料枠拡大とDeepSeekの低価格攻勢が競争を加速させており、2027年にはGPT-4oクラスの性能が$0.50/1M入力以下で利用可能になると予測される。