リアルタイム推論とは？（リアルタイムスイロン）わかりやすく解説

Q: リアルタイム推論とは？

LLMへの入力を受けてミリ秒〜秒単位の低レイテンシーで応答を返す推論方式。チャットボット・コード補完・音声対話などのインタラクティブなユースケースで要求され、バッチ推論と対置される概念。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

リアルタイム推論とは？（リアルタイムスイロン）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

リアルタイム推論 vs バッチ推論

比較項目	リアルタイム推論	バッチ推論
レイテンシー要件	TTFT < 500ms, ITL < 50ms	制約なし（分〜時間）
スループット	低〜中（GPU利用率50-80%）	高（GPU利用率90%+）
コスト効率	低い（GPU常時待機）	高い（GPUフル稼働）
ユースケース	チャット、コード補完、音声対話	データ分類、翻訳、要約一括
料金体系	通常料金	50%割引（OpenAI Batch API）
SLA	99.9%可用性、P99レイテンシー保証	ベストエフォート

レイテンシー最適化技術

KVキャッシュ

Transformerの自己注意機構で計算されるKey/Valueテンソルをキャッシュし、新トークン生成時に過去の計算を再利用します。KVキャッシュなしでは1トークン生成ごとに全シーケンスの再計算が必要ですが、キャッシュにより増分計算のみで済みます。GPT-4レベルのモデルでは、KVキャッシュ1セッションあたり数GBのGPUメモリを消費します。

GPU	VRAM	推論スループット（Llama 70B INT4）	価格（クラウド時間単価）
NVIDIA H100 80GB	80GB HBM3	80〜120 tokens/sec	$3〜4/hour
NVIDIA A100 80GB	80GB HBM2e	40〜60 tokens/sec	$1.5〜2.5/hour
NVIDIA L40S	48GB GDDR6	30〜50 tokens/sec	$1〜1.5/hour
AMD MI300X	192GB HBM3	90〜130 tokens/sec	$2.5〜3.5/hour
Apple M4 Ultra	192GB 統合メモリ	15〜25 tokens/sec	ローカル専用

メニュー

リアルタイム推論（リアルタイムスイロン）

メニュー

リアルタイム推論（リアルタイムスイロン）

この用語に関連するコンテンツ

リアルタイム推論とは

リアルタイム推論 vs バッチ推論

レイテンシー最適化技術

KVキャッシュ

Speculative Decoding

Continuous Batching

FlashAttention

量子化

推論インフラストラクチャ

GPU選定

オートスケーリング

リアルタイム音声・映像推論

FAQ

Q1: リアルタイム推論に必要なGPUスペックは？

Q2: P99レイテンシーとは何を測っている？

Q3: エッジデバイスでのリアルタイム推論は現実的？

関連用語