LLMへの入力を受けてミリ秒〜秒単位の低レイテンシーで応答を返す推論方式。チャットボット・コード補完・音声対話などのインタラクティブなユースケースで要求され、バッチ推論と対置される概念。
リアルタイム推論(Real-Time Inference)は、ユーザーのリクエストに対してミリ秒〜数秒以内にLLMの応答を返す推論方式です。バッチ推論が大量のリクエストをまとめて非同期処理するのに対し、リアルタイム推論は1リクエストごとに即座に処理してレスポンスを返します。ChatGPT、Claude、Gemini などの対話型AIサービス、GitHub CopilotやCursorなどのコード補完ツール、そしてAlexaやSiriなどの音声アシスタントが代表的なリアルタイム推論のユースケースです。
| 比較項目 | リアルタイム推論 | バッチ推論 |
|---|---|---|
| レイテンシー要件 | TTFT < 500ms, ITL < 50ms | 制約なし(分〜時間) |
| スループット | 低〜中(GPU利用率50-80%) | 高(GPU利用率90%+) |
| コスト効率 | 低い(GPU常時待機) | 高い(GPUフル稼働) |
| ユースケース | チャット、コード補完、音声対話 | データ分類、翻訳、要約一括 |
| 料金体系 | 通常料金 | 50%割引(OpenAI Batch API) |
| SLA | 99.9%可用性、P99レイテンシー保証 | ベストエフォート |
Transformerの自己注意機構で計算されるKey/Valueテンソルをキャッシュし、新トークン生成時に過去の計算を再利用します。KVキャッシュなしでは1トークン生成ごとに全シーケンスの再計算が必要ですが、キャッシュにより増分計算のみで済みます。GPT-4レベルのモデルでは、KVキャッシュ1セッションあたり数GBのGPUメモリを消費します。
小さなドラフトモデル(例: 7Bパラメータ)で複数トークンを先行生成し、大きなターゲットモデル(例: 70B)で一括検証する技術。ドラフトモデルの予測が正しければ1回のforward passで複数トークンが確定し、ITLが実質的に数分の1に短縮されます。Medusa、EAGLE、Lookahead Decodingなどの派生手法があります。
従来のstatic batchingでは、バッチ内の全リクエストが完了するまで次のバッチを処理できませんでした。Continuous Batching(vLLM、TGI で採用)は、完了したリクエストのスロットに新しいリクエストを即座に挿入し、GPU稼働率を最大化します。リアルタイム推論のスループットを2〜3倍向上させる技術です。
注意機構の計算をタイリングとオンラインソフトマックスで最適化し、HBMアクセスを削減します。FlashAttention-2はA100で標準注意機構の2〜4倍の速度を達成し、長いコンテキスト(32K〜128Kトークン)でのリアルタイム推論を実用的にしました。FlashAttention-3はH100のTMA(Tensor Memory Accelerator)を活用してさらに高速化しています。
モデルの重みを FP16/BF16 から INT8/INT4 に量子化してメモリ使用量と計算量を削減します。GPTQ、AWQ、GGUF(llama.cpp)などの手法があり、品質低下を最小限に抑えながらITLを30〜50%短縮できます。INT4量子化したLlama 3.1 70Bは、FP16の同モデルと比較してITLが約2倍高速です。
| GPU | VRAM | 推論スループット(Llama 70B INT4) | 価格(クラウド時間単価) |
|---|---|---|---|
| NVIDIA H100 80GB | 80GB HBM3 | 80〜120 tokens/sec | $3〜4/hour |
| NVIDIA A100 80GB | 80GB HBM2e | 40〜60 tokens/sec | $1.5〜2.5/hour |
| NVIDIA L40S | 48GB GDDR6 | 30〜50 tokens/sec | $1〜1.5/hour |
| AMD MI300X | 192GB HBM3 | 90〜130 tokens/sec | $2.5〜3.5/hour |
| Apple M4 Ultra | 192GB 統合メモリ | 15〜25 tokens/sec | ローカル専用 |
リアルタイム推論ではリクエスト数が時間帯によって大きく変動するため、GPU台数のオートスケーリングが重要です。KubernetesのHPA(Horizontal Pod Autoscaler)でGPU使用率やリクエストキューの長さに基づいてスケールアウト/インします。コールドスタート(GPU起動+モデルロード)に30秒〜2分かかるため、予測的スケーリングやウォームプールの維持が推奨されます。
2024年以降、テキストだけでなく音声やカメラ映像をリアルタイムでLLMに入力するマルチモーダルリアルタイム推論が登場しています。
A1: 7B〜13Bパラメータのモデルなら24GB VRAM(RTX 4090)で十分です。70Bモデルには80GB以上(A100/H100)が必要で、INT4量子化なら48GB(L40S)でも動作します。APIサービスとして提供する場合は、同時接続数×KVキャッシュサイズのVRAMが追加で必要です。
A2: 全リクエストの99%がその時間内に完了するレイテンシーの閾値です。TTFTのP99が1秒なら、100回中99回は1秒以内に最初のトークンが返ります。SLAではP50(中央値)ではなくP99で保証するのが一般的で、外れ値(長いプロンプトやGPU競合)の影響を反映した指標です。
A3: 2026年時点で、3B〜8Bパラメータの量子化モデルがスマートフォン(iPhone 16 Pro, Pixel 9 Pro)やApple Silicon Mac(M3以上)でリアルタイム推論可能です。ITL 30〜80ms程度で、簡単な質問応答やテキスト要約は実用レベルです。ただし、70B以上のモデルはクラウド推論が必須です。