AI Inference Token Throughput/TTFT/TBT 2026とは？（エーアイインファレンス）わかりやすく解説

Q: AI Inference Token Throughput/TTFT/TBT 2026とは？

LLM推論性能指標。TTFT Time To First Token (Latency・1-3sec)・TBT Time Between Tokens (10-50ms)・ITL Inter-Token Latency・Token Throughput tps tok/s (RTX 5090 Llama 3 70B Q4 30tps Native・Speculative Decoding 2x)・QPS Queries Per Second・E2E Latency・Prefill+Decode・Continuous Batching・PagedAttention vLLM・Speculative Decoding (Draft Model)、2026年Speculative Decoding主流。

主な特徴・仕組み

TTFT：RTX 5090でLlama 3 70B Q4推論時に1.5 s、RTX 5090（Q8）で1.2 s。

TBT：平均12 ms、AMD Radeon 7900 XTXで15 ms。

ITL：トークン間遅延の標準偏差が5 ms。

Token Throughput：RTX 5090で30 tps（Q4）、Speculative Decodingで60 tps。

QPS：RTX 5090で200クエリ／秒、AMD Radeon 7900 XTXで180クエリ／秒。

E2E Latency：Prefill+Decodeで0.5 s、全体で1.2 s。

Continuous Batching：同時に5クエリをバッチ処理、スループットを15 %向上。

PagedAttention vLLM：メモリ使用量を30 %削減、推論速度を10 %向上。

Speculative Decoding（2026主流）：推論前に複数候補を生成し、正しいトークンを選択。

2025年のトレンド：TTFTを80 %削減するハードウェアアクセラレーションが登場。

GPU	メモリ	メモリ帯域	推論スループット (tps)	価格
NVIDIA RTX 5090	24 GB GDDR7	1.5 TB/s	30 (Q4) / 60 (Speculative)	¥1,280,000
AMD Radeon 7900 XTX	32 GB GDDR6	1.2 TB/s	28	¥1,150,000
NVIDIA RTX 5090 (Q8)	32 GB GDDR7	1.6 TB/s	55	¥1,600,000

GPU

メモリ

メモリ帯域

推論スループット (tps)

価格

NVIDIA RTX 5090

24 GB GDDR7

1.5 TB/s

30 (Q4) / 60 (Speculative)

¥1,280,000

AMD Radeon 7900 XTX

32 GB GDDR6

1.2 TB/s

¥1,150,000

NVIDIA RTX 5090 (Q8)

32 GB GDDR7

1.6 TB/s

¥1,600,000

具体例・対応製品

NVIDIA RTX 5090 – Llama 3 70B Q4で30 tps、Speculative Decodingで60 tps。

AMD Radeon 7900 XTX – 32 GB GDDR6、28 tps、E2E 1.3 s。

Intel Arc A770 – 24 GB GDDR6、22 tps、Prefill+Decode 0.6 s。

Google TPU v5 – 80 GB/sメモリ帯域、90 tps、QPS 250。

Apple M2 Max – 64 GB unified memory、18 tps、E2E 1.5 s。

自作PCでの選び方・注意点

GPU：TTFT・TBTを重視するならRTX 5090（Q4）またはQ8。メモリ帯域が高いほど大規模モデルのPrefillに有利。

CPU：Ryzen 9 9950X3D（24コア、3.5 GHzベース、4.9 GHzブースト、128 MB L3）で、データ転送とバッチ処理を高速化。

メモリ：DDR5‑6000 32 GB（266 MHz）でデータロードを高速化。

電源：450 W TDPを超える場合は600 W以上の高効率電源（80 + Gold）。

冷却：高負荷時にTBTが増加しやすいので、液体冷却または大型ファン推奨。

OS/ドライバ：CUDA 12.3、vLLM 0.8、Speculative Decodingライブラリを最新に保つ。

ソフトウェア：TensorRT‑Opt、ONNX Runtime 1.12で最適化。

2026年の動向：Speculative Decodingが標準化され、推論パイプラインに組み込まれる。

2025年のトレンド：GPU側のTTFT低減技術が登場し、同時に複数クエリのContinuous Batchingがサポート。

注意点：大容量メモリを持つGPUは熱設計が重要。TBTが長くなるとバッチサイズを減らす必要がある。

関連用語との違い

Latency：一般的に全体遅延を指すが、TTFTは最初のトークン遅延、TBTはトークン間遅延に限定。

Throughput：総トークン数/秒を示すが、Token Throughputは1クエリあたりの平均値。

QPS：クエリ単位での処理速度、複数トークンを含む。

Speculative Decoding：推論前に複数候補を生成し、正解を選択。従来の逐次推論と比較してスループットを倍増。

よくある質問(FAQ)

Q1. TTFTとE2E Latencyの違いは？
A1. TTFTは最初のトークン生成までの時間、E2E LatencyはPrefill＋Decodeを含む全体遅延。TTFTが低いとインタラクティブ性が向上。

Q2. Speculative Decodingを有効にするメリットは？
A2. 2倍近いToken Throughputが得られ、同じハードウェアでより多くのクエリを処理可能。2026年では主流化され、ライブラリが自動で適用。

Q3. Continuous Batchingはどのように設定する？
A3. vLLMやTensorRTでバッチサイズを5〜10に設定し、同時に複数クエリを投入。バッチサイズが大きいほどTBTが短縮されるが、メモリ使用量が増加。

まとめ

AI Inference Token Throughput（TTFT/TBT 2026）は、LLM推論の遅延とスループットを細分化して測定する指標である。RTX 5090やAMD Radeon 7900 XTXなど最新GPU、Ryzen 9 9950X3DやDDR5‑6000を組み合わせることで、TTFTを1.2 s以下、TBTを12 ms以下に抑えつつ、Token Throughputを60 tpsまで伸ばせる。Speculative DecodingとContinuous Batchingは2026年に標準化され、推論性能を大幅に向上させる主要技術となっている。自作PCで高性能推論を実現するには、GPUのメモリ帯域、CPUのコア数、冷却設計をバランスよく選択し、最新ドライバ・ライブラリを維持することが不可欠である。

メニュー