UC Berkeleyが開発したオープンソースのLLM推論エンジンで、PagedAttentionによる効率的なメモリ管理と高スループット推論を実現するサービングフレームワーク
vLLM(Virtual Large Language Model)は、大規模言語モデルの推論サービングに特化したオープンソースフレームワークである。UC Berkeleyの研究チームが2023年に発表し、PagedAttentionと呼ばれる革新的なメモリ管理手法により、従来の推論エンジンと比較して最大24倍のスループット向上を達成した。2026年現在、商用・研究用途を問わず最も広く採用されているLLMサービングソリューションの一つとなっている。
vLLMは、LLMの推論(Inference)フェーズを高速かつ効率的に処理するために設計されたPythonベースのフレームワークである。従来のHugging Face Transformersライブラリによる推論では、KVキャッシュのメモリ断片化が深刻なボトルネックとなっていた。vLLMはこの問題をPagedAttentionで解決し、GPUメモリの利用効率を大幅に改善した。
2024年にはvLLM 0.4系でSpeculative Decodingのネイティブサポート、2025年にはvLLM 0.6系でマルチモーダルモデル対応やAWQ/GPTQ量子化との統合が進み、2026年のvLLM 0.8系ではPrefix Cachingの強化とNVIDIA H200/B200 GPUへの最適化が実装された。GitHub Stars数は45,000を超え、OpenAIのバッチ推論基盤やAnyscaleのRay Serveとの統合でも活用されている。
/v1/completions および /v1/chat/completions エンドポイントをそのまま提供し、既存のOpenAI SDKコードをそのまま流用可能| 推論エンジン | PagedAttention | Continuous Batching | 量子化 | マルチGPU | OpenAI互換API |
|---|---|---|---|---|---|
| vLLM 0.8 |
| ○ |
| ○ |
| AWQ/GPTQ/FP8 |
| 最大8GPU |
| ○ |
| TGI 2.x | △(独自実装) | ○ | GPTQ/AWQ/EETQ | 最大4GPU | △(一部互換) |
| TensorRT-LLM | ○(独自) | ○ | FP8/INT8/INT4 | 最大8GPU | × |
| Ollama 0.5 | × | △ | GGUF Q4〜Q8 | × | ○ |
| llama.cpp | × | × | GGUF Q2〜Q8 | × | ○ |
vLLMは以下の環境・モデルで広く利用されている:
vLLMを導入する際は以下の点を考慮する:
vllm/vllm-openai)、Ray Serve統合、Kubernetes Operator(KServe/Seldon)など複数の選択肢がある| 比較項目 | vLLM | TGI | Ollama |
|---|---|---|---|
| 主な用途 | 本番サービング | 本番サービング | ローカル実験 |
| 対象規模 | 7B〜405B+ | 7B〜70B | 1B〜70B |
| GPU要件 | NVIDIA必須 | NVIDIA必須 | CPU/Apple Silicon可 |
| メモリ効率 | 最高(PagedAttention) | 高い | 標準 |
| 導入難易度 | 中〜高 | 中 | 低 |
Q1: vLLMはCPUのみの環境で動作しますか? A: 基本的にNVIDIA GPU(CUDA)が必須。CPU推論はllama.cppやOllamaを推奨。vLLMのCPUバックエンドは実験的実装で本番使用は非推奨。
Q2: vLLMとOllamaの使い分けはどうすべきですか? A: ローカル開発・実験用途にはOllama、本番APIサービングにはvLLMが適切。vLLMはContinuous BatchingとPagedAttentionで同時多数リクエスト処理に優れる。
Q3: vLLMの起動に最低限必要なGPU構成は? A: 7Bモデル(FP16)なら1x RTX 4090(24GB VRAM)で十分。GPTQ 4bit量子化なら3Bモデルを8GB VRAM GPUでも動作可能。70B以上は複数GPU構成が必要。
Q4: vLLMでストリーミングレスポンスは使えますか?
A: OpenAI互換APIの stream=True パラメータでSSE(Server-Sent Events)形式のストリーミング出力に対応。ChatGPTライクなリアルタイム応答を実装可能。