Hugging Faceが開発したオープンソースのLLM推論サーバーで、Rustベースの高性能バックエンドとFlash Attention統合により本番環境向けのテキスト生成APIを提供する
Text Generation Inference(TGI)は、Hugging Faceが開発・メンテナンスするオープンソースのLLM推論サーバーである。Rustで実装されたバックエンドにより高い信頼性とパフォーマンスを実現し、Hugging Face Inference EndpointsやAmazon SageMakerなどの商用プラットフォームでも採用されている。2026年現在、TGI 2.x系がリリースされ、vLLMと並ぶ主要なLLMサービングソリューションとして位置づけられている。
TGIは2023年にHugging Faceがオープンソースとして公開した推論サーバーで、当初からHugging Face Hubとの緊密な統合を特徴としていた。Rustで書かれたgRPCサーバーがリクエストのスケジューリングとバッチングを担当し、Pythonのモデルシャードがテンソル演算を実行するハイブリッドアーキテクチャを採用している。
2024年にはFlash Attention 2の完全統合とEETQ(Efficient Exact Top-K Quantization)サポートが追加され、2025年のTGI 2.0ではRouter層の全面刷新とGrammar-based Structured Generation(JSON Schema制約付き生成)が実装された。2026年にはNVIDIA H200対応とSpeculative Decoding Pipelineが安定版としてリリースされている。
--model-id パラメータでHub上のモデルを直接ロード。ゲートモデル(Llama 3等)のトークン認証にも対応| 機能 | TGI 2.x | vLLM 0.8 | TensorRT-LLM |
|---|---|---|---|
| 実装言語 | Rust + Python | Python | C++ + Python |
| Flash Attention | v2/v3 | v2 | 独自実装 |
| 構造化生成 | JSON Schema/Regex/CFG | Outlines統合 | × |
| Hub統合 | ネイティブ | 手動ダウンロード | 変換必要 |
| Docker公式 | ghcr.io/huggingface/tgi | vllm/vllm-openai | nvcr.io/nvidia |
| ライセンス | Apache 2.0 | Apache 2.0 | Apache 2.0 |
inference: true フラグでTGI対応を確認可能--max-concurrent-requests、--max-batch-total-tokens 等の起動パラメータでリソース制御TGIとvLLMの最大の差異はアーキテクチャ哲学にある。TGIはRust製Routerによる安定性とHugging Faceエコシステム統合を重視し、vLLMはPagedAttentionによるメモリ効率とスループット最大化を追求する。小〜中規模モデル(7B〜70B)のサービングではTGIの構造化出力機能が優位、大規模モデル(70B+)の高スループットサービングではvLLMが有利となる場面が多い。
Q1: TGIとvLLMのどちらを選ぶべきですか? A: Hugging Face Hubのモデルをそのまま使い、JSON Schema制約付き生成が必要ならTGI。最大スループットと大規模モデル対応を重視するならvLLM。両者ともOpenAI互換APIを提供するため移行は容易。
Q2: TGIはAMD GPUで動作しますか? A: ROCm対応のDockerイメージが提供されており、AMD Instinct MI250/MI300Xで動作可能。ただしNVIDIA GPU比でパフォーマンスチューニングの成熟度は劣る。
Q3: TGIの起動に必要な最小構成は? A: 7Bモデル(FP16)で1x RTX 3090/4090(24GB VRAM)、Docker環境とNVIDIA Container Toolkitが必要。量子化モデルなら16GB VRAMでも動作可能。