Dynamic Batching（動的バッチング）とは？（ダイナミックバッチング（ドウテキバッチング））わかりやすく解説

Q: Dynamic Batching（動的バッチング）とは？

Dynamic Batching（動的バッチング）とは、推論リクエストの到着パターンに応じてバッチサイズと構成タイミングを動的に調整するバッチング手法である。NVIDIA Triton Inference Serverが代表的な実装であり、最大バッチサイズ（max_batch_size）と最大遅延時間（max_queue_delay_microseconds）の2つのパラメータでバッチ構成を制御する。LLM専用のContinuous Batchingとは異なり、画像認識・音声認識・埋め込み生成など幅広い推論モデルに適用できる汎用的なバッチング技術である。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Dynamic Batching（動的バッチング）とは？（ダイナミックバッチング（ドウテキバッチング））意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

Dynamic Batchingの制御パラメータ

Dynamic Batchingの動作は主に以下のパラメータで制御される。

パラメータ	説明	典型的な設定値	影響
max_batch_size	1バッチの最大リクエスト数	8〜128	スループット ↔ メモリ
max_queue_delay_microseconds	バッチ構成の最大待機時間	100〜100,000μs	レイテンシ ↔ バッチ効率
preferred_batch_size	優先的に構成するバッチサイズ	[4, 8, 16]	GPU効率の最適化
preserve_ordering	リクエスト順序の保持	true/false	順序保証 ↔ スループット
priority_levels	優先度レベル数	1〜3	SLA管理の粒度

比較項目	Dynamic Batching	Continuous Batching
対象モデル	汎用（CNN、Transformer Encoder等）	自己回帰LLM特化
バッチ粒度	リクエスト単位	イテレーション（トークン）単位
入出力形状	固定形状が理想的	可変長シーケンス対応
メモリ管理	バッチ単位の確保・解放	PagedAttentionによるページ管理
プリエンプション	なし（一般的に不要）	あり（メモリ不足時）
適用例	画像分類、埋め込み生成、音声認識	テキスト生成、チャット、翻訳
主要実装	Triton Inference Server	vLLM、TGI
スケーリング	マルチモデル・マルチGPU	テンソル/パイプライン並列

ユースケース	モデル例	バッチサイズ目安	期待スループット
ドキュメント埋め込み	E5-large-v2	32〜128	500〜2,000文/秒
クエリ埋め込み	BGE-base	16〜64	1,000〜5,000文/秒
マルチモーダル埋め込み	CLIP ViT-L	16〜64	200〜800画像/秒
リランキング	Cross-Encoder	8〜32	100〜500ペア/秒

メニュー

Dynamic Batching（動的バッチング）（ダイナミックバッチング（ドウテキバッチング））

メニュー

Dynamic Batching（動的バッチング）（ダイナミックバッチング（ドウテキバッチング））

この用語に関連するコンテンツ

Dynamic Batchingとは

Dynamic Batchingの制御パラメータ

Triton Inference ServerでのDynamic Batching設定

Dynamic BatchingとContinuous Batchingの比較

埋め込み生成でのDynamic Batching活用

マルチモデル環境でのDynamic Batching

よくある質問（FAQ）

Q1: Dynamic Batchingのmax_queue_delayはどのように決めるべきですか？

Q2: Dynamic BatchingとContinuous Batchingを組み合わせることは可能ですか？

Q3: Dynamic Batchingでバッチサイズが不均一になるとGPU効率が下がりますか？

Q4: Sequence Batchingとの違いは何ですか？

関連用語