Intel(旧 Habana Labs)が開発した第3世代 AI 学習・推論アクセラレータ Gaudi 3。BF16 演算で 1,835 TFLOPS を達成し、NVIDIA H100 に対するコスト競争力のある代替として位置づけられる。
Intel Gaudi 3 は、Intel の AI アクセラレータ事業部(旧 Habana Labs、2019年買収)が開発した第3世代の AI 学習・推論プロセッサです。5nm プロセスで製造された 2 ダイ構成を採用し、BF16 で 1,835 TFLOPS という高い演算性能を実現しています。NVIDIA H100 に対する価格競争力のある代替チップとして、Dell、Supermicro、HPE などの OEM パートナーからサーバー製品が提供されています。
| 世代 | プロセス | HBM 容量 | BF16 性能 | ネットワーク | 対抗 GPU |
|---|---|---|---|---|---|
| Gaudi 1 | 16nm | 32 GB HBM2 | 370 TFLOPS | 10×100GbE | A100 |
| Gaudi 2 | 7nm | 96 GB HBM2e | 865 TFLOPS | 24×100GbE | H100 |
| Gaudi 3 | 5nm | 128 GB HBM2e | 1,835 TFLOPS | 24×200GbE | H100/H200 |
| 項目 | Gaudi 3 | NVIDIA H100 SXM |
|---|---|---|
| BF16 演算 | 1,835 TFLOPS | 989 TFLOPS |
| FP8 演算 | 3,670 TFLOPS | 1,979 TFLOPS |
| HBM 容量 | 128 GB | 80 GB |
| メモリ帯域 | 3.7 TB/s | 3.35 TB/s |
| TDP | ~600W | 700W |
| 推定価格 | ~$12,000-15,000 | ~$25,000-30,000 |
スペックシート上は Gaudi 3 が優位ですが、CUDA エコシステム(cuDNN、NCCL、Triton、Flash Attention 等)の成熟度と最適化ライブラリの豊富さで NVIDIA が依然として実効性能で有利なケースが多いです。
Q1: Gaudi 3 は CUDA コードを直接実行できますか? A: いいえ。Gaudi 3 は独自の TPC ISA を持つため、CUDA カーネルの直接実行は不可能です。SynapseAI SDK の PyTorch Bridge や Optimum-Habana を通じてモデルを実行する必要があります。
Q2: Gaudi 3 の実際の入手性はどうですか? A: 2025-2026年時点で Dell PowerEdge XE9680、Supermicro SYS-421GE-TNRT3 などのサーバーで OEM 提供されています。クラウドでは Intel Developer Cloud や一部の CSP で利用可能です。
Q3: 推論にも使えますか? A: はい。Gaudi 3 は学習と推論の両方に対応しています。特に LLM の推論では、大容量 128 GB HBM によりモデル全体をオンチップに保持でき、70B パラメータクラスのモデルを単一チップで推論可能です。