Text Generation Inference（TGI）とは？（テキストジェネレーションインファレンス）わかりやすく解説

Hugging Faceが開発したオープンソースのLLM推論サーバーで、Rustベースの高性能バックエンドとFlash Attention統合により本番環境向けのテキスト生成APIを提供する

Text Generation Inference（TGI）とは？（テキストジェネレーションインファレンス）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

主な特徴・仕組み

Rust製Router: gRPCベースのルーターがリクエストキューイング・バッチスケジューリング・ヘルスチェックを低レイテンシで処理。メモリセーフなRust実装で本番運用の安定性を確保
Flash Attention統合: Flash Attention 2/3をネイティブサポートし、Attention演算のメモリ使用量をO(N²)からO(N)に削減。シーケンス長128Kトークンまで効率的に処理
Continuous Batching: Token-level の動的バッチングにより、各リクエストが生成完了次第バッチから離脱。GPU稼働率を最大化
Watermark対応: テキスト透かし（Watermarking）をサーバーサイドで実装可能。生成テキストの出所追跡に活用
Grammar制約生成: JSON Schema、正規表現、CFG（Context-Free Grammar）に基づく構造化出力を保証。APIレスポンスのスキーマ準拠を推論レベルで強制
量子化サポート: GPTQ、AWQ、EETQ、BitsAndBytes（4bit/8bit）をサポート。EETQ は FP16→INT8変換をオンザフライで実行
Hugging Face Hub統合: --model-id パラメータでHub上のモデルを直接ロード。ゲートモデル（Llama 3等）のトークン認証にも対応
Prometheus メトリクス: リクエスト数・レイテンシ・キューサイズ・GPU利用率等のメトリクスをPrometheus形式でエクスポート

機能	TGI 2.x	vLLM 0.8	TensorRT-LLM
実装言語	Rust + Python	Python	C++ + Python