LLMプロバイダとモデルの組み合わせを品質・コスト・速度の3軸で最適化するルーティングプラットフォーム。同一モデルでも異なるプロバイダ間のパフォーマンス差を考慮した選択を自動化する。
Unify AIは、LLMの「モデル選択」と「プロバイダ選択」を同時に最適化するルーティングプラットフォームです。多くのLLMゲートウェイが「どのモデルを使うか」に焦点を当てるのに対し、Unifyは「同じモデルでもどのプロバイダが最も速く・安く・高品質か」まで踏み込んで最適化します。Llama 3.1 70Bを例に取ると、Together AI、Fireworks AI、Groq、Anyscale、Deepinfraなど5社以上のプロバイダが同一モデルを提供しており、レイテンシは2〜10倍の差が生じることがあります。
| モデル | プロバイダA(Groq) | プロバイダB(Together) | プロバイダC(Fireworks) |
|---|---|---|---|
| Llama 3.1 70B | TTFT 80ms / $0.59/M | TTFT 200ms / $0.88/M | TTFT 150ms / $0.90/M |
| Mixtral 8x22B | TTFT 120ms / $0.60/M | TTFT 250ms / $0.65/M | TTFT 180ms / $0.65/M |
| Gemma 2 27B | 非対応 | TTFT 180ms / $0.80/M | TTFT 160ms / $0.80/M |
従来のルーティングが1次元(モデル選択のみ)だったのに対し、Unifyは2次元(モデル×プロバイダ)の組み合わせ空間を探索します。
Unifyの特徴的な機能は、各プロバイダのパフォーマンスをリアルタイムで計測・公開するベンチマークダッシュボードです。
このデータは公開されており、Unifyを使わなくてもプロバイダ選定の参考として利用可能です。
import unify
client = unify.Unify(api_key="unify-xxxxx")
response = client.generate(
messages=[{"role": "user", "content": "React Hooksのベストプラクティスを教えて"}],
model="llama-3.1-70b-chat",
provider="lowest-input-cost"
)
provider パラメータには以下の動的ルーティング指定が可能です。
"lowest-input-cost": 入力トークン単価が最安のプロバイダ"lowest-output-cost": 出力トークン単価が最安のプロバイダ"lowest-ttft": TTFT(初回トークンまでの時間)が最短のプロバイダ"highest-tps": スループット(tokens/sec)が最速のプロバイダ"lowest-itl": ITL(トークン間レイテンシ)が最短のプロバイダUnifyでは事前に「ルーター」を定義して、品質・コスト・速度のバランスをカスタマイズできます。
router = unify.Router(
endpoints=[
"llama-3.1-70b-chat@groq",
"llama-3.1-70b-chat@together-ai",
"claude-3-5-sonnet@anthropic",
"gpt-4o-mini@openai"
],
optimize="quality",
constraints={
"max_cost_per_1m_tokens": 2.0,
"max_ttft_ms": 500
}
)
制約条件を満たす範囲内で最も品質の高い「モデル×プロバイダ」の組み合わせが自動選択されます。
| サービス | 最適化対象 | 強み |
|---|---|---|
| OpenRouter | モデルアクセス統一 | 100+モデルを単一APIで |
| Not Diamond | モデル品質予測 | メタモデルでELO+5〜15% |
| Martian | コスト削減 | 品質維持で40〜60%削減 |
| Unify | モデル×プロバイダ同時最適化 | 同一モデルのプロバイダ間最適化 |
Q1: Unifyはプロバイダの障害を検知して自動切替しますか? A: はい、リアルタイムの可用性モニタリングに基づき、プロバイダがダウンしている場合は自動的に次善のプロバイダに切り替えます。切替はユーザーに透過的に行われ、追加のレイテンシは通常50ms以内です。
Q2: カスタムのファインチューニングモデルをUnify経由で使えますか? A: プロバイダ(Together AI、Fireworks AI等)でホストされたファインチューニングモデルはUnify経由でルーティング可能です。エンドポイントURLを手動登録してルーティング対象に追加します。
Q3: 無料プランで何リクエストまで使えますか? A: 無料枠は月間10,000リクエストまたは$10相当のLLM使用量のいずれか少ない方です。ベンチマークダッシュボードの閲覧は無制限で無料です。