vLLM (高速推論)とは？（ブイエルエルエム）わかりやすく解説

Q: vLLM (高速推論)とは？

UC Berkeley 2023年公開の高速 LLM 推論エンジン。PagedAttention + 24倍高速・Apache 2.0 + 無料・「LLM 推論サーバ業界主流」.

概要

vLLM は 米 UC Berkeley が2023年6月公開した高速 LLM 推論エンジン。PagedAttention (KV キャッシュ最適化) + Continuous Batching + Apache 2.0 オープンソース・Hugging Face Transformers 24倍高速・LLama 3 + Qwen 2.5 + DeepSeek V3 + Mixtral + 主要全 LLM 対応・「LLM 推論サーバ業界主流 OSS」。vLLM は2023-2026年 LLM 推論サーバ業界主流 OSSで、「PagedAttention + Continuous Batching + 24倍高速 + 多 GPU 対応」でProduction LLM デプロイデファクトスタンダード。vLLM の革新点: ① PagedAttention でOS の Virtual Memory + Paging に類比した KV キャッシュ管理 でメモリ効率4倍向上 + スループット24倍向上 ② Continuous Batching でStatic Batching (Hugging Face Transformers) より2-3倍高速 ③ 多 GPU 対応 (Tensor Parallelism + Pipeline Parallelism) でLlama 3 405B + Qwen 2.5 72B + DeepSeek V3 671B 等の超大規模モデル分散推論 ④ Apache 2.0 + 完全無料 ⑤ OpenAI API 互換サーバ でOpenAI Python SDK 直接利用可能 + 既存コード移行容易。主要採用: ① Anthropic + Cohere + Mistral AI + DeepSeek + Together AI + Anyscale + 主要 LLM スタートアップ Production 利用 ② 企業内 Private LLM デプロイ (RHEL + Ubuntu Server + Kubernetes) ③ Hugging Face Inference Endpoints バックエンド ④ Self-Hosted LLM API サーバ。

主な特徴・仕組み

公開: UC Berkeley (米国・Sky Computing Lab)・2023年6月
ライセンス: Apache 2.0 (オープンソース・完全無料)
vLLM 0.6.x: 2024年最新メジャー
PagedAttention: OS Virtual Memory に類比した KV キャッシュ管理 (メモリ効率4倍 + スループット24倍)
Continuous Batching: Static Batching より2-3倍高速
対応 LLM: Llama 3 + Qwen 2.5 + DeepSeek V3 + Mixtral + Mistral + Phi-3 + Gemma + 主要全 LLM (50+ アーキテクチャ)
多 GPU 対応: Tensor Parallelism + Pipeline Parallelism
対応 GPU: NVIDIA A100 + H100 + H200 + A10 + L40S + AMD MI300X + Apple Silicon (限定)
OpenAI API 互換: OpenAI Python SDK 直接利用可能
競合: Hugging Face TGI (Text Generation Inference) + NVIDIA TensorRT-LLM + SGLang + LMDeploy

スペック比較表

LLM 推論エンジン	提供	ライセンス	速度	特徴
vLLM	UC Berkeley	Apache 2.0

メニュー

vLLM (高速推論)（ブイエルエルエム）

メニュー

vLLM (高速推論)（ブイエルエルエム）

概要

主な特徴・仕組み

スペック比較表

この用語に関連するコンテンツ

具体例・対応製品

自作PCでの選び方・注意点

関連用語との違い

よくある質問（FAQ）

関連用語