Continuous Batching（連続バッチング）とは？（コンティニュアスバッチング（レンゾクバッチング））わかりやすく解説

Q: Continuous Batching（連続バッチング）とは？

Continuous Batching（連続バッチング）とは、LLMの推論においてイテレーション（デコードステップ）単位でリクエストの追加と完了を動的に管理するバッチング手法である。従来のStatic Batchingがバッチ内の全リクエスト完了まで待機するのに対し、Continuous Batchingは完了したリクエストを即座に解放して新たなリクエストを挿入することで、GPUの利用率を常に最大化する。vLLM、TGI、TensorRT-LLMなど主要なLLMサービングエンジンが採用する標準的なバッチング方式である。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Continuous Batching（連続バッチング）とは？（コンティニュアスバッチング（レンゾクバッチング））意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

Static BatchingとContinuous Batchingの動作比較

以下のタイムラインで両者の動作の違いを具体的に示す。4つのリクエスト（R1〜R4）がバッチサイズ2で処理される場合を考える。

Static Batchingの場合

ステップ	スロット1	スロット2	状態
t=0〜5	R1（5トークン生成）	R2（3トークン生成）	R2はt=3で完了、t=5までアイドル
t=5〜12	R3（7トークン生成）	R4（4トークン生成）	R4はt=9で完了、t=12までアイドル
合計	12ステップ	GPU利用率: 58%	アイドルスロット: 5ステップ分

Continuous Batchingの場合

ステップ	スロット1	スロット2	状態

責務	説明	実装例
リクエスト受付	新規リクエストをwaiting_queueに追加	FIFO、優先度付きキュー
バッチ構成	各イテレーションでバッチメンバーを決定	max_num_seqs制約下で最大充填
プリエンプション	メモリ不足時にリクエストを退避	Swap（CPU退避）、Recompute（再計算）
完了判定	EOSトークンまたはmax_tokens到達を検出	トークン単位のチェック

特性	vLLM	TGI	TensorRT-LLM
バッチング名称	Continuous Batching	Continuous Batching	Inflight Batching
KVキャッシュ管理	PagedAttention v2	Paged KV Cache	Paged KV Cache
プリフィル処理	Chunked Prefill	Chunked Prefill	Separate Prefill
プリエンプション	Swap/Recompute選択可	Swap	Swap
スケジューリング	FCFS + Priority	FCFS	Capacity Scheduler
マルチモデル	非対応（v0.6時点）	非対応	対応
分散推論	Tensor/Pipeline並列	Tensor並列	Tensor/Pipeline並列
量子化対応	AWQ/GPTQ/FP8/INT8	AWQ/GPTQ/BnB	FP8/INT4/SmoothQuant

パラメータ	説明	典型的な範囲	トレードオフ
max_num_seqs	同時処理可能な最大シーケンス数	64〜512	スループット ↔ レイテンシ
max_num_batched_tokens	1イテレーションの最大トークン数	2048〜32768	GPU利用率 ↔ メモリ
block_size	PagedAttentionのブロックサイズ	16〜32	メモリ効率 ↔ 管理オーバーヘッド
swap_space	CPU退避用メモリ（GB）	4〜32	プリエンプション耐性 ↔ CPU RAM
enable_chunked_prefill	チャンクドプリフィルの有効化	true/false	デコードレイテンシ安定化
max_model_len	モデルが処理する最大コンテキスト長	2048〜131072	対応入力長 ↔ メモリ消費

t=0〜3	R1	R2（t=3で完了）	R2完了、R3を挿入
t=3〜5	R1（t=5で完了）	R3	R1完了、R4を挿入
t=5〜9	R4（t=9で完了）	R3	R4完了
t=9〜10	-	R3（t=10で完了）	全完了
合計	10ステップ	GPU利用率: 95%	アイドルスロット: 1ステップ分

メニュー

Continuous Batching（連続バッチング）（コンティニュアスバッチング（レンゾクバッチング））

メニュー

Continuous Batching（連続バッチング）（コンティニュアスバッチング（レンゾクバッチング））

この用語に関連するコンテンツ

Continuous Batchingとは

Static BatchingとContinuous Batchingの動作比較

Static Batchingの場合

Continuous Batchingの場合

Continuous Batchingの実装アーキテクチャ

スケジューラ

KVキャッシュマネージャ

プリフィルとデコードの分離

主要エンジンのContinuous Batching実装比較

Continuous Batchingのチューニングパラメータ

よくある質問（FAQ）

Q1: Continuous BatchingはすべてのLLMモデルで使えますか？

Q2: Continuous Batchingのオーバーヘッドはどの程度ですか？

Q3: Continuous Batchingでレイテンシのばらつきを制御するには？

Q4: Prefill Interferenceとは何ですか？どう対処しますか？

関連用語