AWS が 2023 年公開した第 2 世代 AI 推論特化 ASIC アクセラレータ。チップあたり 190 TFLOPS + 32GB HBM2e、Stable Diffusion / Llama 2 等の推論で同等 GPU 比 4 倍コスト効率、AWS EC2 Inf2 インスタンス搭載。
AWS Inferentia 2(エーダブリューエス インフェレンティア ツー)は、Amazon Web Services(AWS)が 2023 年 4 月に公開した第 2 世代 AI 推論特化 ASIC アクセラレータです。AWS は 2015 年に Annapurna Labs(イスラエル拠点の半導体設計会社)を $370 million で買収し、自社製シリコンの開発を本格化しました。Annapurna Labs はそれまで Graviton(Arm CPU)・Nitro(DPU)・Trainium(AI 学習)・Inferentia(AI 推論)などの一連の AWS Silicon ファミリーを開発しています。
Inferentia 2 は初代 Inferentia(2019、70 TFLOPS、8GB DDR4 メモリ)の後継として、大規模 LLM / Stable Diffusion / TTS / コンピュータビジョン推論に特化した設計が特徴です。チップあたり 190 TFLOPS(FP16)・105 TFLOPS(FP32 with TensorFloat-32)・380 TFLOPS(BF16)・47 TOPS(INT8)+ 32GB HBM2e + 820GB/s メモリ帯域 + 192MB On-chip SRAM を搭載しています。これは初代 Inferentia と比べて 2.7 倍の演算性能 + 4 倍のメモリ容量 + 11 倍のメモリ帯域という大幅な性能向上を実現しました。
最大の差別化要因は、コスト効率の高さです。Stable Diffusion XL / Llama 2 70B / Mistral 7B / GPT-3 級モデルの推論で、同等性能の NVIDIA GPU(A100 / H100)比で 4 倍のコスト効率(同等スループットを 1/4 のコストで実現)を AWS が公表しています。これにより、大規模 LLM 推論サービス(チャットボット / 画像生成 / 音声合成 / 翻訳等)を AWS Inf2 上で運用することで、運用コストを大幅に削減できます。
利用方法は AWS EC2 Inf2 インスタンス(2023-)で提供され、Inf2.xlarge(1 チップ、$0.76/hour)から Inf2.48xlarge(12 チップ、$13.74/hour)まで複数サイズが選択可能です。SageMaker Endpoints・Bedrock(マネージド LLM 推論サービス)・Lambda・ECS / EKS などの AWS AI サービス基盤として広く採用されています。Anthropic(Claude API の一部 AWS Inf2 で実行)・Stability AI(Stable Diffusion)・Hugging Face TGI / Text Generation Inference・Amazon 自社 AI サービスなどが Inf2 上で運用されています。
ソフトウェアエコシステムとしては、AWS Neuron SDK(Inferentia / Trainium 共通)・PyTorch / TensorFlow ネイティブ統合・Hugging Face Transformers 互換・vLLM サポート・vLLM-Neuron 拡張・OpenAI 互換 API ラッパー(Ray Serve / TGI 経由)などが提供されており、開発者は既存の PyTorch / TensorFlow コードを最小限の変更で Inf2 に移植できる設計になっています。
| 製品 | 公開年 | 用途 | 演算性能 | メモリ |
|---|---|---|---|---|
| Inferentia | 2019 | 推論 | 70 TFLOPS FP16 | 8GB DDR4 |
| Inferentia 2 | 2023 |
| 推論 |
| 190 TFLOPS FP16 |
| 32GB HBM2e |
| Trainium | 2021 | 学習 | 256 TFLOPS FP16 | 32GB HBM2e |
| Trainium 2 | 2024 | 学習 | 1.3 PFLOPS BF16 | 96GB HBM3 |
AWS Inferentia 2 はクラウド専用の AI ASIC で、コンシューマ自作 PC には搭載できません。AWS EC2 Inf2 インスタンスとして時間課金 + サブスクで利用可能で、Inf2.xlarge($0.76/hour)から始められます。Stable Diffusion / Llama 2 / Mistral 等の OSS LLM 推論を低コストで運用したい場合の選択肢となります。
ホビー / 開発用途では、ローカル環境(RTX 4090 / RTX 5090 + Ollama / vLLM 自宅推論)や GPU クラウド(RunPod / Vast.ai / Lambda Labs)のほうがコストパフォーマンス + 立ち上げ速度で有利な場合が多いです。AWS Inf2 は本番運用 + AWS エコシステム統合が必要な場合に真価を発揮します。
Q1: NVIDIA GPU と比べてどちらが良いですか? A: 用途次第です。Inferentia 2 は推論特化 + AWS 統合 + コスト効率で優位、NVIDIA GPU は汎用 + 学習対応 + ソフトウェアエコシステムで優位。本番推論コスト削減なら Inferentia 2、研究 / 開発 + 学習なら NVIDIA GPU が選ばれます。
Q2: Inferentia 2 で動作する LLM はどのような種類ですか? A: PyTorch / TensorFlow ベースの主要 OSS LLM(Llama 2 / 3、Mistral、Phi、Qwen、Gemma 等)+ Stable Diffusion / SDXL / FLUX 等の画像生成モデル + Whisper 等の音声モデルが Neuron SDK 経由で動作します。
Q3: GPU から Inferentia 2 への移植は難しいですか? A: AWS Neuron SDK + PyTorch / Hugging Face 統合により、既存コードの最小限の変更で移植可能です。専用ハードウェアの最適化はかかりますが、Llama / Stable Diffusion 等の人気モデルは事前最適化済みで、即利用可能です。