LLMインテントルーティングとは？（エルエルエムインテントルーティング）わかりやすく解説

Q: LLMインテントルーティングとは？

LLM自体を分類器として使用し、ユーザーの入力意図（Intent）を判定して最適な処理パスに振り分ける手法。Semantic Routerより精度が高いが、LLM呼び出しコストとレイテンシが発生するため、高精度が求められるエンタープライズ用途で採用される。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

LLMインテントルーティングとは？（エルエルエムインテントルーティング）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

Semantic Routerとの使い分け

観点	Semantic Router	LLMインテントルーティング
判定速度	5〜20ms	200〜2000ms
判定コスト	埋め込みAPI 1回	LLM API 1回
精度（明確な入力）	95%+	98%+
精度（曖昧な入力）	70〜85%	90〜95%
文脈理解	なし（単一入力のみ）	あり（会話履歴を考慮可能）
カスタマイズ	サンプル発話の追加	プロンプトエンジニアリング

実装パターン

パターン1: 構造化出力による分類

LLMにJSON形式で分類結果を返させる。

分類プロンプトの設計ポイント:

各カテゴリの定義を明確に記述
境界ケースの判定基準を明示
信頼度スコアの出力を要求
該当カテゴリなしの場合の処理を指定

パターン2: Few-Shot分類

各カテゴリから3〜5件の入出力例をプロンプトに含め、Few-Shot学習で分類精度を向上させる。

パターン3: 2段階ルーティング

1段階目: Semantic Routerで高速に大分類（5ms） 2段階目: 曖昧な入力のみLLMで精密分類（500ms）

この2段階方式により、全体の80%は高速ルーティング、残り20%のみLLM判定となり、コストとレイテンシを最適化できる。

実用上の考慮点

コスト計算

方式	1リクエストあたりコスト	月100万リクエスト
Semantic Router（OpenAI embed）	$0.0001	$100
LLM分類（GPT-4o mini）	$0.0005	$500
LLM分類（GPT-4o）	$0.005	$5,000
2段階ハイブリッド	$0.0002	$200

レイテンシバジェット

チャットボットのUX基準では初回応答まで1秒以内が望ましい。LLMインテントルーティングで500msを消費すると、実際のLLM応答生成に残り500msしか使えない。ストリーミング応答と組み合わせるか、2段階方式でレイテンシを最小化する設計が必要。

エッジケース処理

複合意図: 「天気を教えて、あとPythonでHTTPリクエストの書き方も」→ 複数ルートへの分割送信
文脈依存: 「続きを書いて」→ 会話履歴からコンテキストを復元して分類
意図不明: 「うーん」→ 明確化質問をデフォルトルートで返す

FAQ

Q1: LLMインテントルーティングはどんな場合に使うべきですか？

A1: 分類精度が90%を超える必要がある業務アプリケーション（カスタマーサポート、医療相談、法務相談等）で有効。カジュアルなチャットボットにはSemantic Routerで十分なことが多い。

Q2: ルーティング用のLLMは本体と同じモデルを使うべきですか？

A2: 通常は小型・低コストモデル（GPT-4o mini、Haiku等）で十分。ルーティングは分類タスクであり、生成能力は不要なため、高性能モデルを使う必要はない。

Q3: ファインチューニングしたモデルをルーティングに使えますか？

A3: 使える。ドメイン固有のインテント分類にはファインチューニングが最も効果的で、100〜500件の学習データで汎用モデルを大幅に上回る精度が得られる。ただし運用・更新コストが増加する点を考慮する必要がある。

メニュー

LLMインテントルーティング（エルエルエムインテントルーティング）

この用語に関連するコンテンツ

メニュー

LLMインテントルーティング（エルエルエムインテントルーティング）

この用語に関連するコンテンツ