AWS Inferentia 2とは？（エーダブリューエスインフェレンティア2）わかりやすく解説

Q: AWS Inferentia 2とは？

AWS が 2023 年公開した第 2 世代 AI 推論特化 ASIC アクセラレータ。チップあたり 190 TFLOPS + 32GB HBM2e、Stable Diffusion / Llama 2 等の推論で同等 GPU 比 4 倍コスト効率、AWS EC2 Inf2 インスタンス搭載。

概要

AWS Inferentia 2(エーダブリューエスインフェレンティアツー)は、Amazon Web Services(AWS)が 2023 年 4 月に公開した第 2 世代 AI 推論特化 ASIC アクセラレータです。AWS は 2015 年に Annapurna Labs(イスラエル拠点の半導体設計会社)を $370 million で買収し、自社製シリコンの開発を本格化しました。Annapurna Labs はそれまで Graviton(Arm CPU)・Nitro(DPU)・Trainium(AI 学習)・Inferentia(AI 推論)などの一連の AWS Silicon ファミリーを開発しています。

Inferentia 2 は初代 Inferentia(2019、70 TFLOPS、8GB DDR4 メモリ)の後継として、大規模 LLM / Stable Diffusion / TTS / コンピュータビジョン推論に特化した設計が特徴です。チップあたり 190 TFLOPS(FP16)・105 TFLOPS(FP32 with TensorFloat-32)・380 TFLOPS(BF16)・47 TOPS(INT8)+ 32GB HBM2e + 820GB/s メモリ帯域 + 192MB On-chip SRAM を搭載しています。これは初代 Inferentia と比べて 2.7 倍の演算性能 + 4 倍のメモリ容量 + 11 倍のメモリ帯域という大幅な性能向上を実現しました。

最大の差別化要因は、コスト効率の高さです。Stable Diffusion XL / Llama 2 70B / Mistral 7B / GPT-3 級モデルの推論で、同等性能の NVIDIA GPU(A100 / H100)比で 4 倍のコスト効率(同等スループットを 1/4 のコストで実現)を AWS が公表しています。これにより、大規模 LLM 推論サービス(チャットボット / 画像生成 / 音声合成 / 翻訳等)を AWS Inf2 上で運用することで、運用コストを大幅に削減できます。

利用方法は AWS EC2 Inf2 インスタンス(2023-)で提供され、Inf2.xlarge(1 チップ、$0.76/hour)から Inf2.48xlarge(12 チップ、$13.74/hour)まで複数サイズが選択可能です。SageMaker Endpoints・Bedrock(マネージド LLM 推論サービス)・Lambda・ECS / EKS などの AWS AI サービス基盤として広く採用されています。Anthropic(Claude API の一部 AWS Inf2 で実行)・Stability AI(Stable Diffusion)・Hugging Face TGI / Text Generation Inference・Amazon 自社 AI サービスなどが Inf2 上で運用されています。

ソフトウェアエコシステムとしては、AWS Neuron SDK(Inferentia / Trainium 共通)・PyTorch / TensorFlow ネイティブ統合・Hugging Face Transformers 互換・vLLM サポート・vLLM-Neuron 拡張・OpenAI 互換 API ラッパー(Ray Serve / TGI 経由)などが提供されており、開発者は既存の PyTorch / TensorFlow コードを最小限の変更で Inf2 に移植できる設計になっています。

主な特徴・仕組み

提供: AWS、2023 年 4 月公開。
開発: AWS Annapurna Labs(2015 年 $370 million で買収)。
構造: ASIC、専用 NeuronCore 第 2 世代を搭載。
演算性能: 190 TFLOPS(FP16)、105 TFLOPS(FP32 TensorFloat-32)、380 TFLOPS(BF16)、47 TOPS(INT8)。
メモリ: 32GB HBM2e、820GB/s 帯域。
On-chip SRAM: 192MB(キャッシュ + 中間活性化用)。
ネットワーク: NeuronLink 第 2 世代、384 GB/s チップ間相互接続。
提供インスタンス: AWS EC2 Inf2(Inf2.xlarge から Inf2.48xlarge まで)。
価格: Inf2.xlarge $0.76/hour、Inf2.48xlarge(12 チップ)$13.74/hour。
ソフトウェア: AWS Neuron SDK + PyTorch / TensorFlow / Hugging Face / vLLM 統合。
採用: Anthropic Claude API 一部・Stability AI・Hugging Face TGI・Bedrock 基盤。
比較: NVIDIA A100 / H100 比で 4 倍コスト効率(AWS 公表値)。

AWS AI ASIC 比較

製品	公開年	用途	演算性能	メモリ
Inferentia	2019	推論	70 TFLOPS FP16	8GB DDR4
Inferentia 2	2023

メニュー

AWS Inferentia 2（エーダブリューエスインフェレンティア2）

メニュー

AWS Inferentia 2（エーダブリューエスインフェレンティア2）

概要

主な特徴・仕組み

AWS AI ASIC 比較

この用語に関連するコンテンツ

自作PCユーザー向けの注意点

関連用語との違い

よくある質問(FAQ)

まとめ