LLM推論性能指標。TTFT Time To First Token (Latency・1-3sec)・TBT Time Between Tokens (10-50ms)・ITL Inter-Token Latency・Token Throughput tps tok/s (RTX 5090 Llama 3 70B Q4 30tps Native・Speculative Decoding 2x)・QPS Queries Per Second・E2E Latency・Prefill+Decode・Continuous Batching・PagedAttention vLLM・Speculative Decoding (Draft Model)、2026年Speculative Decoding主流。
AI Inference Token Throughput(TTFT/TBT 2026)は、LLM(大規模言語モデル)推論時の性能を定量化する指標である。TTFT(Time To First Token)は最初のトークン生成までの遅延、TBT(Time Between Tokens)はトークン間の平均遅延、ITL(Inter‑Token Latency)はトークン間の遅延分散を測定する。Token Throughputは秒間生成できるトークン数(tps)で、QPS(Queries Per Second)はクエリ単位での処理速度を示す。E2E LatencyはPrefill+Decodeを含むエンドツーエンドの遅延。2026年にはSpeculative Decodingが主流となり、2倍近いスループットを実現するケースが増加している。
| GPU | メモリ | メモリ帯域 | 推論スループット (tps) | 価格 |
|---|---|---|---|---|
| NVIDIA RTX 5090 | 24 GB GDDR7 | 1.5 TB/s | 30 (Q4) / 60 (Speculative) | ¥1,280,000 |
| AMD Radeon 7900 XTX | 32 GB GDDR6 | 1.2 TB/s | 28 | ¥1,150,000 |
| NVIDIA RTX 5090 (Q8) | 32 GB GDDR7 | 1.6 TB/s | 55 | ¥1,600,000 |
Q1. TTFTとE2E Latencyの違いは?
A1. TTFTは最初のトークン生成までの時間、E2E LatencyはPrefill+Decodeを含む全体遅延。TTFTが低いとインタラクティブ性が向上。
Q2. Speculative Decodingを有効にするメリットは?
A2. 2倍近いToken Throughputが得られ、同じハードウェアでより多くのクエリを処理可能。2026年では主流化され、ライブラリが自動で適用。
Q3. Continuous Batchingはどのように設定する?
A3. vLLMやTensorRTでバッチサイズを5〜10に設定し、同時に複数クエリを投入。バッチサイズが大きいほどTBTが短縮されるが、メモリ使用量が増加。
AI Inference Token Throughput(TTFT/TBT 2026)は、LLM推論の遅延とスループットを細分化して測定する指標である。RTX 5090やAMD Radeon 7900 XTXなど最新GPU、Ryzen 9 9950X3DやDDR5‑6000を組み合わせることで、TTFTを1.2 s以下、TBTを12 ms以下に抑えつつ、Token Throughputを60 tpsまで伸ばせる。Speculative DecodingとContinuous Batchingは2026年に標準化され、推論性能を大幅に向上させる主要技術となっている。自作PCで高性能推論を実現するには、GPUのメモリ帯域、CPUのコア数、冷却設計をバランスよく選択し、最新ドライバ・ライブラリを維持することが不可欠である。