リクエストごとに最適なLLMモデルを予測・選択するAIルーティングプラットフォーム。独自のメタモデルが各プロンプトに対する各LLMの性能を予測し、精度・コスト・速度のバランスで最適解を自動決定する。
Not Diamondは、各リクエストに対して「どのLLMが最も良い回答を返すか」を予測するメタモデルベースのAIルーティングプラットフォームです。単一のLLMを全タスクに使う代わりに、プロンプトの特性に応じてGPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro、Llama 3.1 70Bなどの中から最適なモデルを自動選択します。公式ベンチマークでは、任意の単一モデルと比較してELOレーティングで5〜15%の精度向上が確認されています。
Not Diamondの核心はメタモデル(ルーターモデル)と呼ばれる軽量な分類器です。
Input Prompt → [Feature Extraction] → [Meta-Model Prediction]
↓
Score per LLM:
GPT-4o: 0.92
Claude 3.5: 0.89
Gemini 1.5: 0.85
Llama 70B: 0.78
↓
→ GPT-4o selected
Not Diamondのルーティングが効果を発揮する根拠は、各LLMの得意・不得意分野の違いです。
| タスクカテゴリ | 最適モデル傾向 | 理由 |
|---|---|---|
| 数学・論理推論 | Claude 3.5 Sonnet | Chain-of-thought推論の精度が高い |
| コード生成 | GPT-4o / Claude 3.5 |
| 言語カバレッジとデバッグ力 |
| 創作・文章生成 | GPT-4o | 自然で多様な表現力 |
| 長文要約 | Gemini 1.5 Pro | 2Mトークンコンテキストの活用 |
| 日本語タスク | GPT-4o / Claude 3.5 | 日本語学習データの質と量 |
| 低コスト汎用 | Llama 3.1 70B | OSS・推論コスト最安クラス |
OpenAI互換のシンプルなAPIで利用できます。
from notdiamond import NotDiamond
client = NotDiamond(api_key="nd-xxxxx")
result = client.chat.completions.create(
messages=[{"role": "user", "content": "量子コンピュータの仕組みを小学生に説明して"}],
model=["openai/gpt-4o", "anthropic/claude-3-5-sonnet",
"google/gemini-1.5-pro", "meta-llama/llama-3.1-70b"],
tradeoff="quality"
)
print(f"選択モデル: {result.llm.model}")
print(f"回答: {result.content}")
tradeoff パラメータで "quality"(品質最優先)、"cost"(コスト最優先)、"latency"(速度最優先)を指定できます。
| 項目 | Not Diamond | Martian | OpenRouter |
|---|---|---|---|
| ルーティング方式 | メタモデル予測 | ML分類器 | 手動/フォールバック |
| 精度向上 | ELO +5〜15% | 品質維持型 | ルーティング機能限定 |
| コスト削減 | 副次的効果 | 主目的(40〜60%) | プロバイダ直接価格+マージン |
| カスタムモデル | プール指定可 | プール指定可 | 全モデルアクセス |
| オフライン利用 | Python SDK | API限定 | API限定 |
| OSS版 | あり(ルーターモデル公開) | なし | なし |
Not Diamondは品質最大化に特化し、Martianはコスト最適化に特化、OpenRouterはアクセス統一に特化という棲み分けです。
Not Diamondはルーターモデルの重みをHugging Faceで公開しており、セルフホストでの利用も可能です。
notdiamond/notdiamond-0002(Hugging Face)セルフホスト版ではAPIコスト(ルーティング判定費用)が不要になるため、大量リクエスト処理時のコスト効率がさらに向上します。
Q1: メタモデルの予測が外れた場合はどうなりますか? A: 選択されたモデルがそのまま回答を生成します。予測精度は約80〜85%で、「最適ではないが十分に良い」モデルが選ばれるケースがほとんどです。thumbs down フィードバックで予測精度は継続的に改善されます。
Q2: ルーティング判定にかかるコストはありますか? A: SaaS版ではリクエストあたり約$0.001〜$0.005のルーティング費用が加算されます。OSS版(セルフホスト)ではこの費用は不要で、GPU推論コストのみとなります。
Q3: プロンプトの内容がNot Diamondに送信されますか? A: SaaS版ではルーティング判定のためにプロンプトの特徴量(トークン数・カテゴリ推定等)が送信されますが、プロンプト全文は必須ではありません。プライバシー重視の場合はOSS版のセルフホストを推奨します。