Continuous Batchingとは？（コンティニュアスバッチング）わかりやすく解説

LLM推論において、リクエストの到着・完了に応じてバッチを動的に構成し直す手法で、GPU稼働率を最大化しスループットを2〜5倍向上させるサービング最適化技術

Continuous Batchingとは？（コンティニュアスバッチング）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

主な特徴・仕組み

Iteration-Level Scheduling: 1トークン生成ごとにバッチ構成を見直し、完了済みリクエストを排出・新規リクエストを投入。スケジューリングオーバーヘッドは1イテレーションあたり約0.1ms
Preemption対応: 長時間実行中のリクエストを一時中断し、優先度の高い短いリクエストを先に処理するプリエンプション機能。SLO（レイテンシ目標）管理に有効
GPU利用率最大化: Static Batchingの30〜50%から80〜95%にGPU稼働率を向上。同一ハードウェアでのスループットが2〜5倍改善
可変長シーケンス対応: バッチ内の各リクエストが異なる入力長・出力長を持つ場合でも効率的に処理。パディング無駄を排除
動的バッチサイズ: リクエスト流量に応じてバッチサイズを自動調整。ピーク時は最大バッチサイズまで拡張、閑散時は最小構成に縮小
メモリ管理との連携: PagedAttention（vLLM）やInflight Batching（TensorRT-LLM）と組み合わせることで、KVキャッシュの断片化を防ぎつつ動的バッチングを実現
Token Budget制御: 1バッチ内の合計トークン数に上限（max_batch_total_tokens）を設定し、OOM（Out of Memory）を防止

バッチング方式	GPU利用率	スループット	レイテンシ	実装の複雑さ
Static Batching	30〜50%	基準（1x）	高い（最長リクエストに律速）	低い