LLM Cost-Aware Routing(コスト最適化ルーティング)とは、応答品質の制約条件を満たしつつ API 利用コストを最小化するようリクエストを複数モデル間で振り分ける運用戦略である。LiteLLM・OpenRouter・Portkey 等のゲートウェイツールがバジェット管理とルーティングを統合的に提供する。
LLM Cost-Aware Routing は、品質要件を満たす最も安価なモデルにリクエストを振り分けることで、API コストを体系的に最小化する戦略である。2026年現在、主要モデルの価格差は最大 100 倍(GPT-4o-mini: $0.15/1M vs Claude 4 Opus: $15/1M input tokens)に達しており、適切なルーティングで 50-90% のコスト削減が可能。
コスト最適化ルーティングの核心は「品質制約付き最小コスト問題」として定式化できる。与えられた品質メトリクス(正確性・流暢性・完全性)を閾値以上に維持しつつ、期待コストを最小化するモデル割り当てを求める。LiteLLM はこの問題をバジェットマネージャ + ルーター構成で解決し、OpenRouter は透過的な価格比較マーケットプレイスとして機能する。
| モデル | Input ($/1M tokens) | Output ($/1M tokens) | 性能ティア |
|---|---|---|---|
| GPT-4o-mini | $0.15 | $0.60 | エントリ |
| Gemini 2.5 Flash | $0.15 | $0.60 | エントリ |
| Claude 4 Haiku | $0.80 | $4.00 | ミドル |
| GPT-4o | $2.50 | $10.00 | ハイエンド |
| Claude 4 Sonnet | $3.00 | $15.00 | ハイエンド |
| Gemini 2.5 Pro |
| $1.25 |
| $10.00 |
| ハイエンド |
| Claude 4 Opus | $15.00 | $75.00 | プレミアム |
| GPT-4.5 | $75.00 | $150.00 | 最上位 |
タスク複雑度に応じてモデルティアを割り当てる最も基本的な戦略。分類→エントリ、要約→ミドル、推論→ハイエンドのように固定マッピングする。
日次/月次の予算上限を設定し、消費量が閾値に近づくとモデルを自動ダウングレードする。LiteLLM の max_budget パラメータで実装可能。
OpenRouter のように複数プロバイダの価格をリアルタイム比較し、同一モデルでも最安プロバイダを選択する。例えば Llama 3.1-70B は Together AI / Groq / Fireworks / Anyscale で価格が異なる。
セマンティックキャッシュ(GPTCache / Portkey Cache)で同一意図のクエリをキャッシュヒットさせ、API コール自体を削減する。実運用で 30-60% のキャッシュヒット率が達成可能。
from litellm import Router
router = Router(
model_list=[
{
"model_name": "cheap",
"litellm_params": {"model": "gpt-4o-mini"},
"model_info": {"max_budget": 50.0},
},
{
"model_name": "quality",
"litellm_params": {"model": "gpt-4o"},
"model_info": {"max_budget": 200.0},
},
],
routing_strategy="usage-based-routing-v2",
redis_host="localhost",
)
| ツール | 機能 | 統合方式 | 月額 |
|---|---|---|---|
| Helicone | リクエスト別コスト追跡・ダッシュボード | プロキシ(1行変更) | 無料〜$500 |
| Langfuse | トレース・コスト・品質の統合分析 | SDK 統合 | 無料〜$500 |
| Portkey | ゲートウェイ型コスト管理・アラート | ゲートウェイ | 無料〜$499 |
| OpenRouter | 消費量ダッシュボード・クレジット管理 | API キー切替 | 従量課金 |
| LiteLLM | バジェットマネージャ・使用量 API | 自前ホスティング | 無料(OSS) |
導入判断のための簡易計算式:
月間節約額 = 現在の月間 API コスト × 期待削減率 (40-80%)
導入コスト = エンジニアリング工数 (5-20人日) + インフラ費 ($50-500/月)
回収期間 = 導入コスト / 月間節約額
例: 月間 API コスト $5,000 → LiteLLM 導入で 60% 削減 = $3,000/月 節約。導入工数 10人日($5,000相当)+ インフラ $100/月。回収期間 = $5,000 / $2,900 ≈ 1.7ヶ月。
Q1: コスト最適化で品質が下がるリスクはありますか? A: 品質制約を設けずにコスト最小化だけを追求すると品質低下する。推奨は A/B テストで品質メトリクス(ユーザー満足度・タスク完了率)を継続モニタリングし、品質低下が 5% を超えたらルーティング閾値を調整する運用。
Q2: キャッシュのヒット率を上げるにはどうすればよいですか? A: セマンティックキャッシュの類似度閾値を 0.95→0.90 に緩和すると、ヒット率は 20-30% 向上するが、不適切なキャッシュヒットのリスクも増加する。ドメイン別に閾値を調整するのが実用的。FAQ 系クエリは 0.88、クリエイティブ系は 0.96 のように設定する。
Q3: マルチクラウド構成のコスト最適化は可能ですか? A: OpenRouter や Portkey はマルチクラウド対応で、AWS Bedrock / Azure OpenAI / Google Vertex AI の価格差を活用できる。同一モデル(Claude 4 Sonnet)でも Anthropic 直接 vs AWS Bedrock で価格が異なる場合がある。リザーブドキャパシティ割引も含めた総合的な最適化が可能。