LLMプロバイダとモデルの組み合わせを品質・コスト・速度の3軸で最適化するルーティングプラットフォーム。同一モデルでも異なるプロバイダ間のパフォーマンス差を考慮した選択を自動化する。

Unify AIとは？（ユニファイ エーアイ）わかりやすく解説

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Unify AIとは？（ユニファイエーアイ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

モデル×プロバイダの2次元ルーティング

モデル	プロバイダA（Groq）	プロバイダB（Together）	プロバイダC（Fireworks）
Llama 3.1 70B	TTFT 80ms / $0.59/M	TTFT 200ms / $0.88/M	TTFT 150ms / $0.90/M
Mixtral 8x22B	TTFT 120ms / $0.60/M	TTFT 250ms / $0.65/M	TTFT 180ms / $0.65/M
Gemma 2 27B	非対応	TTFT 180ms / $0.80/M	TTFT 160ms / $0.80/M

従来のルーティングが1次元（モデル選択のみ）だったのに対し、Unifyは2次元（モデル×プロバイダ）の組み合わせ空間を探索します。

リアルタイムベンチマーク

Unifyの特徴的な機能は、各プロバイダのパフォーマンスをリアルタイムで計測・公開するベンチマークダッシュボードです。

TTFT（Time To First Token）: ストリーミング開始までの時間をリアルタイム計測
ITL（Inter-Token Latency）: トークン間の生成間隔
スループット: tokens/second の実測値
可用性: 各プロバイダのアップタイム履歴
コスト: 入力/出力トークン単価の比較

このデータは公開されており、Unifyを使わなくてもプロバイダ選定の参考として利用可能です。

APIの使い方

import unify

client = unify.Unify(api_key="unify-xxxxx")

response = client.generate(
    messages=[{"role": "user", "content": "React Hooksのベストプラクティスを教えて"}],
    model="llama-3.1-70b-chat",
    provider="lowest-input-cost"
)

provider パラメータには以下の動的ルーティング指定が可能です。

"lowest-input-cost": 入力トークン単価が最安のプロバイダ
"lowest-output-cost": 出力トークン単価が最安のプロバイダ
"lowest-ttft": TTFT（初回トークンまでの時間）が最短のプロバイダ
"highest-tps": スループット（tokens/sec）が最速のプロバイダ
"lowest-itl": ITL（トークン間レイテンシ）が最短のプロバイダ

最適化ルーターの構成

Unifyでは事前に「ルーター」を定義して、品質・コスト・速度のバランスをカスタマイズできます。

router = unify.Router(
    endpoints=[
        "llama-3.1-70b-chat@groq",
        "llama-3.1-70b-chat@together-ai",
        "claude-3-5-sonnet@anthropic",
        "gpt-4o-mini@openai"
    ],
    optimize="quality",
    constraints={
        "max_cost_per_1m_tokens": 2.0,
        "max_ttft_ms": 500
    }
)

制約条件を満たす範囲内で最も品質の高い「モデル×プロバイダ」の組み合わせが自動選択されます。

他サービスとの位置付け

サービス	最適化対象	強み
OpenRouter	モデルアクセス統一	100+モデルを単一APIで
Not Diamond	モデル品質予測	メタモデルでELO+5〜15%
Martian	コスト削減	品質維持で40〜60%削減
Unify	モデル×プロバイダ同時最適化	同一モデルのプロバイダ間最適化

よくある質問（FAQ）

Q1: Unifyはプロバイダの障害を検知して自動切替しますか？ A: はい、リアルタイムの可用性モニタリングに基づき、プロバイダがダウンしている場合は自動的に次善のプロバイダに切り替えます。切替はユーザーに透過的に行われ、追加のレイテンシは通常50ms以内です。

Q2: カスタムのファインチューニングモデルをUnify経由で使えますか？ A: プロバイダ（Together AI、Fireworks AI等）でホストされたファインチューニングモデルはUnify経由でルーティング可能です。エンドポイントURLを手動登録してルーティング対象に追加します。

Q3: 無料プランで何リクエストまで使えますか？ A: 無料枠は月間10,000リクエストまたは$10相当のLLM使用量のいずれか少ない方です。ベンチマークダッシュボードの閲覧は無制限で無料です。

まとめ

モデル選択とプロバイダ選択を同時に2次元最適化
同一モデルでも2〜10倍のレイテンシ差をプロバイダ間で自動解消
リアルタイムベンチマークでTTFT・TPS・コスト・可用性を公開
lowest-cost / lowest-ttft / highest-tps など動的ルーティング指定
品質・コスト・速度の制約条件付き最適化ルーターを構成可能

メニュー

Unify AI（ユニファイエーアイ）