Continuous Batchingとは？（コンティニュアスバッチング）わかりやすく解説

LLM推論サーバーにおいて、リクエスト単位ではなくイテレーション（1トークン生成ステップ）単位でバッチを動的に再構成する手法。完了したリクエストを即座に除外し、新規リクエストを即座に挿入することでGPU利用率を最大化する。

Continuous Batchingとは？（コンティニュアスバッチング）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

Static Batchingの問題点

従来のStatic Batchingでは、バッチ内の全リクエストが生成を完了するまで新しいリクエストを受け付けられない。

4リクエストのバッチで、生成トークン数がそれぞれ10, 50, 200, 30の場合:

バッチ方式	GPU利用率	レイテンシ	スループット	実装複雑度
Static Batching	30〜50%	高（最長リクエスト依存）	低	低
Dynamic Batching	50〜70%	中（バッファ待ち）	中	中
Continuous Batching	80〜95%	低（即時挿入）	高

同時リクエスト数	Static Batch TPS	Continuous Batch TPS	改善率
1	45	45	1.0×
8	120	280	2.3×
32	150	850	5.7×
64	160	1,200	7.5×
128	OOM	1,500	∞