LLM Model Router(モデルルーター)とは、入力クエリの特性を分析し、複数の大規模言語モデルの中から最適なモデルを自動的に選択・振り分けする仕組みである。ML ベースの分類器やルールエンジンにより、品質を維持しながらコストとレイテンシを最小化する。
LLM Model Router は、ユーザーのクエリを受け取り、そのタスク特性(複雑さ・ドメイン・言語・トークン長)を分析して最適な LLM へ自動的にルーティングする中間コンポーネントである。2026年現在、RouteLLM・Martian・Unify.ai が代表的な実装として知られる。
モデルルーターの核心は「すべてのクエリに最高性能モデルを使う必要はない」という洞察にある。実運用のクエリの 60-80% は軽量モデル(GPT-4o-mini・Gemini 2.5 Flash・Claude 4 Haiku)で十分な品質が得られ、残り 20-40% の複雑なクエリのみ高性能モデル(GPT-4o・Claude 4 Opus・Gemini 2.5 Pro)が必要となる。RouteLLM の論文(2024年、UC Berkeley)では、Chatbot Arena の 8万件以上の対戦データから学習した分類器が、品質低下 5% 以内でコストを 50% 削減できることを実証した。
ルールベースで明確なケースを高速に振り分け、曖昧なケースのみ ML 分類器に委譲する二段構成。実運用では最も推奨される。
| ルーター | 方式 | 学習データ | 分類精度 | レイテンシ | ライセンス |
|---|---|---|---|---|---|
| RouteLLM | ML 分類器(MF/SW/BERT) | Chatbot Arena 80K+ | 85-92% | 5-10ms | Apache 2.0 |
| Martian | 品質予測モデル | 独自ベンチマーク | 88-95% | 10-20ms | 商用 |
| Unify.ai | ベンチマーク統合 | MMLU/HumanEval/GSM8K | 90%+ | 5ms | 無料枠あり |
| LiteLLM Router | コスト/レイテンシベース | なし(ルールベース) | N/A | 1ms | MIT |
| OpenRouter Auto | 価格/性能スコア | OpenRouter 内部データ | 非公開 | 3ms | 商用 |
from routellm.controller import Controller
client = Controller(
routers=["mf"],
strong_model="gpt-4o",
weak_model="gpt-4o-mini",
)
response = client.chat.completions.create(
model="router-mf-0.11593",
messages=[{"role": "user", "content": "What is quantum computing?"}]
)
閾値 0.11593 は品質とコストのトレードオフを制御する。値が大きいほど強いモデルへの振り分け比率が上がり、品質は向上するがコストも増加する。
| シナリオ | ルーターなし | RouteLLM 適用 | 削減率 |
|---|---|---|---|
| カスタマーサポート(月 10万クエリ) | $2,500/月(GPT-4o 全量) | $750/月(70% mini 振分) | 70% |
| コードレビュー(月 5万クエリ) | $1,250/月(GPT-4o 全量) | $625/月(50% mini 振分) | 50% |
| 文書要約(月 20万クエリ) | $5,000/月(GPT-4o 全量) | $1,000/月(80% mini 振分) | 80% |
Q1: RouteLLM の分類器はどうやってトレーニングしますか?
A: Chatbot Arena のオープンデータセットで事前学習済みのモデルが提供される。自社データでファインチューニングする場合は、(query, preferred_model) のペアデータ 1,000 件以上を用意し、routellm train コマンドで追加学習する。
Q2: ルーターの誤分類でユーザー体験が悪化しませんか? A: 実運用では「簡単なクエリを強いモデルに振る」誤分類は品質上問題ない(コストが無駄になるだけ)。問題は「複雑なクエリを弱いモデルに振る」ケースだが、RouteLLM の MF 分類器ではこの方向の誤分類率は 3-5% に抑えられている。
Q3: 自社ドメインに特化したルーターを作るにはどうすればよいですか? A: 自社のクエリログから品質評価(人手 or LLM-as-Judge)を付与し、RouteLLM のカスタム分類器をトレーニングするのが最も実用的。Unify.ai はドメイン別ベンチマークスコアからルーティングテーブルを自動生成する機能も提供している。