Intel Gaudi 3とは？（インテルガウディスリー）わかりやすく解説

Q: Intel Gaudi 3とは？

Intel（旧 Habana Labs）が開発した第3世代 AI 学習・推論アクセラレータ Gaudi 3。BF16 演算で 1,835 TFLOPS を達成し、NVIDIA H100 に対するコスト競争力のある代替として位置づけられる。

アーキテクチャと主な特徴

プロセス: TSMC 5nm、2 ダイ構成（Compute Die + Memory Die）

演算ユニット: 64 TPC（Tensor Processing Core）+ 8 MME（Matrix Math Engine）

演算精度: FP32 / BF16 / FP8 / INT8 に対応、FP8 で最大 3,670 TFLOPS

メモリ: 128 GB HBM2e（4 スタック）、帯域幅 3.7 TB/s

内蔵ネットワーク: 24 ポート × 200GbE RoCE v2 = 合計 4.8 Tbps

スケールアウト: 外部スイッチ不要で最大 1,024 アクセラレータのクラスタ構成

電力: TDP 約 600W（前世代 Gaudi 2 の 600W と同等で性能は 2 倍以上）

世代	プロセス	HBM 容量	BF16 性能	ネットワーク	対抗 GPU
Gaudi 1	16nm	32 GB HBM2	370 TFLOPS	10×100GbE	A100
Gaudi 2	7nm	96 GB HBM2e	865 TFLOPS	24×100GbE	H100
Gaudi 3	5nm	128 GB HBM2e	1,835 TFLOPS	24×200GbE	H100/H200

世代

プロセス

HBM 容量

BF16 性能

ネットワーク

対抗 GPU

Gaudi 1

16nm

32 GB HBM2

370 TFLOPS

10×100GbE

A100

Gaudi 2

7nm

96 GB HBM2e

865 TFLOPS

24×100GbE

H100

Gaudi 3

5nm

128 GB HBM2e

1,835 TFLOPS

24×200GbE

H100/H200

NVIDIA H100 との比較

項目	Gaudi 3	NVIDIA H100 SXM
BF16 演算	1,835 TFLOPS	989 TFLOPS
FP8 演算	3,670 TFLOPS	1,979 TFLOPS
HBM 容量	128 GB	80 GB
メモリ帯域	3.7 TB/s	3.35 TB/s
TDP	~600W	700W
推定価格	~$12,000-15,000	~$25,000-30,000

スペックシート上は Gaudi 3 が優位ですが、CUDA エコシステム（cuDNN、NCCL、Triton、Flash Attention 等）の成熟度と最適化ライブラリの豊富さで NVIDIA が依然として実効性能で有利なケースが多いです。

ソフトウェアエコシステム

SynapseAI SDK: グラフコンパイラ、カーネル最適化、プロファイリングツール

PyTorch 統合: Habana PyTorch Bridge で torch.compile バックエンドとして動作

Hugging Face 対応: Optimum-Habana ライブラリで Transformers モデルを直接実行

DeepSpeed 対応: ZeRO-1/2/3 による分散学習をサポート

よくある質問（FAQ）

Q1: Gaudi 3 は CUDA コードを直接実行できますか？ A: いいえ。Gaudi 3 は独自の TPC ISA を持つため、CUDA カーネルの直接実行は不可能です。SynapseAI SDK の PyTorch Bridge や Optimum-Habana を通じてモデルを実行する必要があります。

Q2: Gaudi 3 の実際の入手性はどうですか？ A: 2025-2026年時点で Dell PowerEdge XE9680、Supermicro SYS-421GE-TNRT3 などのサーバーで OEM 提供されています。クラウドでは Intel Developer Cloud や一部の CSP で利用可能です。

Q3: 推論にも使えますか？ A: はい。Gaudi 3 は学習と推論の両方に対応しています。特に LLM の推論では、大容量 128 GB HBM によりモデル全体をオンチップに保持でき、70B パラメータクラスのモデルを単一チップで推論可能です。

まとめ

Intel Gaudi 3 は 5nm・2 ダイ構成の第3世代 AI アクセラレータ

BF16 1,835 TFLOPS / FP8 3,670 TFLOPS でスペック上 H100 を凌駕

128 GB HBM2e と内蔵 24×200GbE で大規模クラスタ構成が可能

NVIDIA 対比で価格競争力があるが、ソフトウェアエコシステムの成熟度が課題

メニュー

Intel Gaudi 3（インテルガウディスリー）

この用語に関連するコンテンツ

メニュー

Intel Gaudi 3（インテルガウディスリー）

この用語に関連するコンテンツ