2026年AI推論Stack全俯瞰。Local: Ollama 0.5+/LM Studio 0.3.10/Jan 0.5/llama.cpp b4400+/MLX 0.21・Server: vLLM 0.7/SGLang 0.4/TGI 3.0/TensorRT-LLM 0.18/MLC LLM・Cloud: AWS Bedrock+SageMaker・GCP Vertex AI・Azure OpenAI Service・Together AI・Replicate・OpenRouter (300+ Model)・Hardware: RTX 5090/H200/B200/MI300X/M4 Max・Apple Silicon UMA・¥0 OSS-API・Speculative Decoding/MoE/MLA・FP4 Native、2026年Local 70B Q4家庭普及。
AI推論Stack 2026包括は、ローカル、サーバー、クラウドそれぞれに最適化されたオープンソース・商用ツールを統合したフレームワークである。ローカル側では Ollama 0.5+、LM Studio 0.3.10、Jan 0.5、llama.cpp b4400+、MLX 0.21 が実行環境を提供し、サーバー側は vLLM 0.7、SGLang 0.4、TGI 3.0、TensorRT-LLM 0.18、MLC LLM が高速化とスケーラビリティを担保する。クラウド側は AWS Bedrock+SageMaker、GCP Vertex AI、Azure OpenAI Service、Together AI、Replicate、OpenRouter(300+ モデル)などが利用可能。2025年には RTX 5090 の登場で 24GB GDDR7 が実装され、2026年には H200 の FP4 ネイティブサポートが加わり、家庭用 70B Q4 推論が実現する。ハードウェアは RTX 5090、H200、B200、MI300X、M4 Max など多彩で、Apple Silicon UMA も対応。OSS-API で ¥0 で利用できる点が大きな特徴だ。
| スタック | 推論範囲 | 主なモデルサイズ | 推論速度 | 推奨ハードウェア |
|---|---|---|---|---|
| ローカル (Ollama) | 7B〜70B | 70B Q4 | 2.5× vLLM | RTX 5090, H200 |
| サーバー (vLLM) | 7B〜200B | 200B FP16 | 3.8× TGI | MI300X, B200 |
| クラウド (OpenRouter) | 1B〜200B | 200B FP4 | 4.2× | AWS Bedrock, Vertex AI |
RTX 5090
H200
Apple Silicon M4 Max
MI300X
B200
従来の推論フレームワーク(Triton, TorchServe)
クラウド専用サービス(AWS SageMaker, Azure OpenAI)
オープンソース推論(llama.cpp, MLX)
Q1. 70B Q4 モデルを家庭用 PC で動かすにはどのくらいのスペックが必要ですか?
A1. 70B Q4 を安定稼働させるには RTX 5090 か H200 のいずれか、128GB DDR5-6000、512GB NVMe SSD、750W 以上の電源が必須です。
Q2. vLLM と TensorRT-LLM の違いは何ですか?
A2. vLLM は Speculative Decoding と MoE を組み合わせて CPU/GPU 両方で高速化、TensorRT-LLM は NVIDIA GPU 専用で FP4 ネイティブに最適化。両者を併用すると、サーバー側で vLLM、GPU で TensorRT-LLM を併用可能。
Q3. クラウドサービスを利用する場合、料金はどの程度ですか?
A3. 2026年時点で OpenRouter の 70B モデルは 1 秒あたり 0.0005 USD、AWS Bedrock は 1 万回リクエストで 10 USD となっている。利用頻度に応じて最適なサービスを選択。
AI推論Stack 2026包括は、ローカルからクラウドまで一貫したエコシステムを提供し、2025年から 2026年にかけて登場した RTX 5090、H200、FP4 ネイティブ、Speculative Decoding、MoE などの技術を組み合わせることで、家庭用 70B Q4 推論を現実化している。自作PCでは GPU・CPU・メモリ・電源・冷却をバランスよく選択し、vLLM、TensorRT-LLM、MLX を統合すれば、低コストで高性能な推論環境が構築できる。クラウドサービスとの併用も視野に入れ、将来的なスケーラビリティを確保することで、2026年以降の AI 需要に柔軟に対応できる。