UC Berkeleyが開発したオープンソースのLLM推論エンジンで、PagedAttentionによる効率的なメモリ管理と高スループット推論を実現するサービングフレームワーク

vLLMとは？（ブイエルエルエム）わかりやすく解説

vLLMとは？（ブイエルエルエム）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

主な特徴・仕組み

PagedAttention: OS の仮想メモリページングに着想を得たKVキャッシュ管理。物理メモリを固定サイズブロックに分割し、非連続メモリ割り当てでフラグメンテーションを95%以上削減
Continuous Batching: リクエストを動的にバッチに追加・除外し、GPU稼働率を最大化。静的バッチと比較してスループットが2〜5倍向上
Tensor Parallelism: 複数GPU間でモデルのテンソルを分割し、70B〜405Bパラメータ規模のモデルを効率的にサービング。最大8GPU並列に対応
Speculative Decoding: ドラフトモデルで候補トークンを先行生成し、ターゲットモデルで検証するパイプライン推論。レイテンシを30〜50%短縮
量子化サポート: AWQ（4bit）、GPTQ（4bit）、FP8、INT8量子化モデルをネイティブサポート。VRAM使用量を50〜75%削減
OpenAI互換API: /v1/completions および /v1/chat/completions エンドポイントをそのまま提供し、既存のOpenAI SDKコードをそのまま流用可能
Prefix Caching: 共通プレフィックス（システムプロンプト等）のKVキャッシュを複数リクエスト間で共有。同一プレフィックスのリクエストで最大10倍の高速化
マルチモーダル対応: LLaVA、Qwen-VL、InternVL2などのVision-Languageモデルをサポート

推論エンジン	PagedAttention	Continuous Batching	量子化	マルチGPU	OpenAI互換API
vLLM 0.8

比較項目	vLLM	TGI	Ollama
主な用途	本番サービング	本番サービング	ローカル実験
対象規模	7B〜405B+	7B〜70B	1B〜70B
GPU要件	NVIDIA必須	NVIDIA必須	CPU/Apple Silicon可
メモリ効率	最高（PagedAttention）	高い	標準
導入難易度	中〜高	中	低