LLM自体を分類器として使用し、ユーザーの入力意図(Intent)を判定して最適な処理パスに振り分ける手法。Semantic Routerより精度が高いが、LLM呼び出しコストとレイテンシが発生するため、高精度が求められるエンタープライズ用途で採用される。
LLMインテントルーティングは、ルーティング判定そのものにLLM(大規模言語モデル)を使用する手法である。ユーザー入力をLLMに渡し、「この入力はどのカテゴリに該当するか」を分類させる。Semantic Routerがベクトル類似度という統計的手法で判定するのに対し、LLMインテントルーティングはLLMの言語理解能力を活用して文脈を含めた高精度な判定を行う。
| 観点 | Semantic Router | LLMインテントルーティング |
|---|---|---|
| 判定速度 | 5〜20ms | 200〜2000ms |
| 判定コスト | 埋め込みAPI 1回 | LLM API 1回 |
| 精度(明確な入力) | 95%+ | 98%+ |
| 精度(曖昧な入力) | 70〜85% | 90〜95% |
| 文脈理解 | なし(単一入力のみ) | あり(会話履歴を考慮可能) |
| カスタマイズ | サンプル発話の追加 | プロンプトエンジニアリング |
LLMにJSON形式で分類結果を返させる。
分類プロンプトの設計ポイント:
各カテゴリから3〜5件の入出力例をプロンプトに含め、Few-Shot学習で分類精度を向上させる。
1段階目: Semantic Routerで高速に大分類(5ms) 2段階目: 曖昧な入力のみLLMで精密分類(500ms)
この2段階方式により、全体の80%は高速ルーティング、残り20%のみLLM判定となり、コストとレイテンシを最適化できる。
| 方式 | 1リクエストあたりコスト | 月100万リクエスト |
|---|---|---|
| Semantic Router(OpenAI embed) | $0.0001 | $100 |
| LLM分類(GPT-4o mini) | $0.0005 | $500 |
| LLM分類(GPT-4o) | $0.005 | $5,000 |
| 2段階ハイブリッド | $0.0002 | $200 |
チャットボットのUX基準では初回応答まで1秒以内が望ましい。LLMインテントルーティングで500msを消費すると、実際のLLM応答生成に残り500msしか使えない。ストリーミング応答と組み合わせるか、2段階方式でレイテンシを最小化する設計が必要。
A1: 分類精度が90%を超える必要がある業務アプリケーション(カスタマーサポート、医療相談、法務相談等)で有効。カジュアルなチャットボットにはSemantic Routerで十分なことが多い。
A2: 通常は小型・低コストモデル(GPT-4o mini、Haiku等)で十分。ルーティングは分類タスクであり、生成能力は不要なため、高性能モデルを使う必要はない。
A3: 使える。ドメイン固有のインテント分類にはファインチューニングが最も効果的で、100〜500件の学習データで汎用モデルを大幅に上回る精度が得られる。ただし運用・更新コストが増加する点を考慮する必要がある。