UC Berkeley 2023年公開の高速 LLM 推論エンジン。PagedAttention + 24倍高速・Apache 2.0 + 無料・「LLM 推論サーバ業界主流」.
vLLM は 米 UC Berkeley が2023年6月公開した高速 LLM 推論エンジン。PagedAttention (KV キャッシュ最適化) + Continuous Batching + Apache 2.0 オープンソース・Hugging Face Transformers 24倍高速・LLama 3 + Qwen 2.5 + DeepSeek V3 + Mixtral + 主要全 LLM 対応・「LLM 推論サーバ業界主流 OSS」。vLLM は2023-2026年 LLM 推論サーバ業界主流 OSSで、「PagedAttention + Continuous Batching + 24倍高速 + 多 GPU 対応」でProduction LLM デプロイデファクトスタンダード。vLLM の革新点: ① PagedAttention でOS の Virtual Memory + Paging に類比した KV キャッシュ管理 でメモリ効率4倍向上 + スループット24倍向上 ② Continuous Batching でStatic Batching (Hugging Face Transformers) より2-3倍高速 ③ 多 GPU 対応 (Tensor Parallelism + Pipeline Parallelism) でLlama 3 405B + Qwen 2.5 72B + DeepSeek V3 671B 等の超大規模モデル分散推論 ④ Apache 2.0 + 完全無料 ⑤ OpenAI API 互換 サーバ でOpenAI Python SDK 直接利用可能 + 既存コード移行容易。主要採用: ① Anthropic + Cohere + Mistral AI + DeepSeek + Together AI + Anyscale + 主要 LLM スタートアップ Production 利用 ② 企業内 Private LLM デプロイ (RHEL + Ubuntu Server + Kubernetes) ③ Hugging Face Inference Endpoints バックエンド ④ Self-Hosted LLM API サーバ。
| LLM 推論エンジン | 提供 | ライセンス | 速度 | 特徴 |
|---|---|---|---|---|
| vLLM | UC Berkeley | Apache 2.0 |
| 24倍 (Hugging Face 比) |
| PagedAttention + 業界主流 |
| Hugging Face TGI | Hugging Face | Apache 2.0 + HF | 高速 | Hugging Face 統合 |
| NVIDIA TensorRT-LLM | NVIDIA | Apache 2.0 | 超高速 (NVIDIA 最適化) | NVIDIA GPU 専用 |
| SGLang | LMSYS (UC Berkeley) | Apache 2.0 | 高速 (RadixAttention) | 構造化生成最適化 |
| LMDeploy | OpenMMLab | Apache 2.0 | 高速 | OpenMMLab 統合 |
| Ollama | Ollama Inc. | MIT | 中速 (Local 主流) | 個人 + 学習 + Local |
vLLM は2026年現在 「LLM 推論サーバ業界主流 OSS」。選び方: ① 業界主流 + 多 LLM 対応 + 多 GPU + Apache 2.0 ならvLLM ($0・Apache 2.0) ② Hugging Face 統合 + 商用サポート ならHugging Face TGI ($0・Apache 2.0) ③ NVIDIA GPU 専用 + 超高速 ならNVIDIA TensorRT-LLM ($0・Apache 2.0・NVIDIA 最適化) ④ 構造化生成 + 関数呼び出し最適化 ならSGLang ($0・Apache 2.0・UC Berkeley LMSYS) ⑤ 個人 + Local + 学習 ならOllama ($0・MIT・Local 主流)。重要な注意: ① 2023年6月 UC Berkeley 公開 → 2026年現在 LLM 推論サーバ業界主流 OSS + Anthropic + Cohere + Mistral AI + DeepSeek + Together AI + Anyscale + 主要 LLM スタートアップ Production 利用 ② PagedAttention で**「OS の Virtual Memory + Paging に類比した KV キャッシュ管理」でメモリ効率4倍向上 + スループット24倍向上** + 業界画期的最適化 ③ OpenAI API 互換サーバ でOpenAI Python SDK + LangChain + LlamaIndex + 既存コード直接利用 + 移行容易 ④ 多 GPU 対応 (Tensor Parallelism + Pipeline Parallelism) でLlama 3 405B + Qwen 2.5 72B + DeepSeek V3 671B 等の超大規模モデル分散推論 ⑤ 2024-2026年 SGLang (UC Berkeley LMSYS) + LMDeploy + Hugging Face TGI 等の競合台頭だがvLLM 依然業界主流地位。
Q1: vLLM vs Ollama? A: vLLM (Production + 多 GPU + 24倍高速 + 業界主流 OSS) vs Ollama (個人 + Local + 学習 + 軽量 + Mac/Windows/Linux)。Production + 多ユーザ + 多 GPU ならvLLM、個人 + Local 開発 + 学習 ならOllama。
Q2: PagedAttention とは? A: OS の Virtual Memory + Paging に類比した KV キャッシュ管理・KV キャッシュメモリ効率4倍 + スループット24倍向上 + 業界画期的最適化・vLLM 業界主流地位の根拠。
Q3: GPU 推奨? A: NVIDIA A100 + H100 + H200 + A10 + L40S 主流・AMD MI300X (一部対応) + Apple Silicon (限定対応)。Production 利用は NVIDIA H100 (80GB) 推奨・Llama 3 70B 1ノード可能・405B は4-8 H100。