NVIDIA Mellanox 2021年発表の400Gbps InfiniBandリンク。HDR後継・HPC/AI Cluster向け4xリンク累計3.2Tbps。
InfiniBand NDR(Next Data Rate、400Gbps/lane)は、NVIDIA Mellanox(旧Mellanox Technologies、2020年4月NVIDIA $6.9B買収)が2021年6月に発表したInfiniBand通信規格世代区分の1つで、1レーン100Gbps PAM4+4レーン束ね400Gbps/portでExascale級HPC(高性能計算)+AIクラスタ向け超高帯域低遅延通信を実現した次世代世代。HDR(High Data Rate、200Gbps、2018年)の倍速化+XDR(800Gbps、2024年)への前駆として、2021-2024年のExascale級スーパーコンピュータ標準として君臨。注意: 本記事は既存「InfiniBand」(既存登録、InfiniBand全般)とは差別化し、NDR世代固有(400Gbps、ConnectX-7、Quantum-2 NDR Switch、Aurora Supercomputer搭載等)の特徴に焦点を当てる。InfiniBand NDR ConnectX-7 HCA(Host Channel Adapter)+Quantum-2 NDR Edge Switch+Quantum-2 NDR Director Switch等のNVIDIA Mellanoxインフラで構成、Exascale級スーパーコンピュータ+Generative AI訓練クラスタ+国家機関スパコン+Hyperscaler AIで広く採用される。代表搭載機はAurora Supercomputer(2024年6月Argonne国立研究所、世界2位Exaflopsスパコン1.012 Eflops、HPE Cray EX + Intel Xeon Max 9470 + Intel Data Center GPU Max 1550 + InfiniBand NDR 200/400Gbps)・Eos Supercomputer(2024年NVIDIA社内、H100×4,608 + InfiniBand NDR)・Stampede3 Supercomputer(2024年Texas Advanced Computing Center、Intel Sapphire Rapids + InfiniBand NDR)・Microsoft Azure HBv4-series(2023年InfiniBand NDR採用クラウドHPC)等。後継InfiniBand XDR(800Gbps、2024年6月発表)→LDR(1.6Tbps、2025年予定)と発展、NDRは2021-2024年のExascale標準として2024年現在も大量稼働中で、特に生成AI訓練インフラの標準として君臨。遅延は**<500ns/hop**(往復<1μs)と極低レイテンシ、SHARP v3(Scalable Hierarchical Aggregation and Reduction Protocol v3、In-Network Computing改良版)対応でMPI Allreduce等の集団通信を専用ハードウェアで超高速化、AI訓練のFP16/BF16 Gradient Reduce処理がスイッチ内で並列実行される独自最適化。
| 規格 | 速度 | 発表年 | 主要採用機 | 用途 |
|---|---|---|---|---|
| InfiniBand HDR | 200Gbps | 2018 | Frontier、Selene | HPC/AI主流 |
| InfiniBand NDR | 400Gbps | 2021 | Aurora、Eos |
| Exascale主流 |
| InfiniBand XDR | 800Gbps | 2024 | 次世代AIクラスタ | AI次世代 |
| Ethernet 200GbE | 200Gbps | 2017 | 一般データセンタ | 汎用ネット |
| Ethernet 400GbE | 400Gbps | 2017 | ハイパースケーラ | 汎用ネット |
| Ethernet 800GbE | 800Gbps | 2024 | AIデータセンタ | AI/Cloud |
InfiniBand NDRは完全にエンタープライズ・Exascale級HPC/AIスーパーコンピュータ向け仕様で、コンシューマ自作PC市場には存在しない+将来的な波及予定もない。HCA(Host Channel Adapter)カードはNVIDIA Mellanox ConnectX-7等で**$5,000-15,000の価格、Quantum-2 NDR Edge Switchは$200,000-1M+の業務用機材。個人ユーザーがInfiniBand NDRを利用するシナリオは皆無に近く、唯一の現実的接近はクラウドレンタル(AWS p5/p5e instance・Microsoft Azure HBv4-series・Google Cloud H3-mega等)。研究機関・大学スパコンの利用申請+利用も可能だが、自作PC市場とは無縁の技術領域。InfiniBand NDR の理解はExascale HPC研究**+生成AI訓練インフラ設計+並列計算アーキテクチャ等の専門家向けで、一般PC自作市場とは無縁の技術領域。
HDR(200Gbps、2018年)はNDRの前世代でHPC普及期の主流、NDRは2021年以降のExascale級+生成AI訓練向けに最適化された次世代版。XDR(800Gbps、2024年)+LDR(1.6Tbps、2025年予定)は次々世代+次々々世代。Ethernet 400GbE(IEEE 802.3bs、2017年)は同帯域だがEthernet汎用用途+高遅延(~1μs)+SHARPなしで、HPC/AI用途ではNDRが優位。HPE Slingshot 11(2022年、200Gbps)はHPE Cray独自実装でAurora搭載、InfiniBand NDR+独自Slingshotの混在。
Q1: HDRとNDRの主な違いは? A: ①速度(HDR 200Gbps→NDR 400Gbps、倍速)、②物理層(HDR 50G PAM4→NDR 100G PAM4)、③遅延(HDR <600ns→NDR <500ns、改善)、④SHARP(HDR v2→NDR v3、機能改良)、⑤主要採用機(HDR=Frontier、NDR=Aurora)、の5点で進化。Generative AI訓練の急増需要への対応が主たる動機です。
Q2: 生成AI訓練でInfiniBandが選ばれる理由は? A: ①超低遅延(<500ns vs Ethernet ~1μs)でAllreduce高速化、②SHARP v3でAllreduceをスイッチ内並列実行(GPU↔GPU間通信が3倍高速化)、③MPI/NCCL(NVIDIA Collective Communications Library)最適化、④NVIDIA H100/H200 GPUとの統合最適化、の4要素複合でEthernetを大幅上回る性能を実現します。
Q3: ConnectX-7とConnectX-8の違いは? A: ConnectX-7(2022年)は200/400Gbps両対応のNDR/HDR世代汎用HCA、ConnectX-8(2024年)は400/800Gbps両対応のXDR/NDR世代次世代HCA。ConnectX-8では生成AI特化機能(PCIe 6.0対応・SHARP v3 enhanced・Liquid Cooling対応)が大幅追加されました。