NVIDIA Mellanox 2018年発表の200Gbps InfiniBandリンク。HPC/AIクラスタ向け4xリンク累計1.6Tbps。
InfiniBand HDR(High Data Rate、200Gbps/lane)は、NVIDIA Mellanox(旧Mellanox Technologies、NVIDIAが2020年4月に**$6.9Bで買収)が2018年5月に発表したInfiniBand通信規格の世代区分の1つで、1レーン50Gbps PAM4+4レーン束ね200Gbps/portでHPC(高性能計算)+AIクラスタ向け超高帯域低遅延通信を実現した重要世代。EDR(Enhanced Data Rate、100Gbps、2014年)の倍速化+FDR(Fourteen Data Rate、56Gbps、2011年)の3.5倍速化+QDR(Quad Data Rate、40Gbps、2008年)の5倍速化と歴代InfiniBandが10年で5倍以上に進化した節目世代。注意: 本記事は既存「InfiniBand」(既存登録、InfiniBand全般)とは差別化し、HDR世代固有(200Gbps、ConnectX-6 Dx、Quantum HDR Switch、Frontier Supercomputer搭載等)の特徴に焦点を当てる。InfiniBand HDR ConnectX-6 Dx HCA(Host Channel Adapter)+Quantum HDR Edge Switch+Quantum HDR Director Switch等のNVIDIA Mellanoxインフラで構成され、HPC/AIスーパーコンピュータ+金融取引系+研究機関スーパーコンピュータで広く採用される。代表搭載機はFrontier Supercomputer**(2022年5月OAK Ridge国立研究所、世界初Exaflopsスパコン1.1 Eflops、HPE Cray EX235a + AMD EPYC 64-core×9,408 + AMD MI250X×37,632 + Slingshot 200Gbps相当)・Fugaku(2020年6月理化学研究所、富士通A64FX + Tofu Interconnect D 6.8Gbps×6方向)・Selene(2020年NVIDIA、A100×4,480 + InfiniBand HDR)・Eagle(2023年Microsoft Azure、AzureのHPC集合)。後継InfiniBand NDR(400Gbps、2021年6月発表)→XDR(800Gbps、2024年)→LDR(1.6Tbps、2025年予定)と発展、HDRは2018-2021年のHPC/AI標準として2024年現在も大量稼働中。遅延は**<600ns/hop**(往復<1.2μs)と低レイテンシ、SHARP(Scalable Hierarchical Aggregation and Reduction Protocol、In-Network Computing)対応でMPI Allreduce等の集団通信を専用ハードウェアで高速化する独自機能。
| 規格 | 速度 | 発表年 | 物理層 | 用途 |
|---|---|---|---|---|
| InfiniBand QDR | 40Gbps | 2008 | 10G NRZ×4 | HPC初期 |
| InfiniBand FDR | 56Gbps | 2011 | 14G NRZ×4 |
| HPC普及 |
| InfiniBand EDR | 100Gbps | 2014 | 25G NRZ×4 | HPC主流 |
| InfiniBand HDR | 200Gbps | 2018 | 50G PAM4×4 | HPC/AI主流 |
| InfiniBand NDR | 400Gbps | 2021 | 100G PAM4×4 | AI/Exascale |
| InfiniBand XDR | 800Gbps | 2024 | 200G PAM4×4 | AI次世代 |
InfiniBand HDRは完全にエンタープライズ・HPC/AIスーパーコンピュータ向け仕様で、コンシューマ自作PC市場には存在しない。HCA(Host Channel Adapter)カードはNVIDIA Mellanox ConnectX-6 Dx等で**$2,000-5,000の価格、Quantum HDR Edge Switchは$50,000-200,000**+大規模スイッチ$500,000-$2M+の業務用機材。個人ユーザーがInfiniBand HDRを利用するシナリオは皆無に近く、唯一の現実的接近はAWS/Azure/GCPのInfiniBand対応HPCインスタンス(AWS p4d/p5 instance・Azure HBv3-series・Google Cloud H3等)のクラウドレンタル。研究機関・大学スパコンの利用申請+利用も可能だが、自作PC市場とは無縁の技術領域。InfiniBand HDR の理解はHPC/AI研究+HPCシステム設計+並列計算アーキテクチャ等の専門家向け。
EDR(100Gbps、2014年)は前世代でInfiniBand普及期の主流、HDRは2018年以降の倍速化版。NDR(400Gbps、2021年6月発表)はHDR後継で、Frontierスパコン以降のExascale級システムで主流。XDR(800Gbps、2024年)+LDR(1.6Tbps、2025年予定)は次々世代+次々々世代。Ethernet 800GbE(IEEE 802.3df、2024年)は同時代直接競合だが、Ethernetは汎用ネットワーク用途+高遅延、InfiniBand HDRはHPC専用低遅延+SHARP等のIn-Network Computing機能で住み分け。HPE Slingshot(2019年Cray買収後HPE、Frontierスパコン採用)はInfiniBand派生のHPE独自実装。
Q1: InfiniBandと10/100GbEの違いは? A: ①遅延(IB <600ns vs Ethernet ~1μs)、②帯域(IB 200/400Gbps vs Eth 100/400Gbps)、③SHARP等のIn-Network Computing機能(IB独自)、④HPC/AI最適化MPI動作(IB専用最適化)の4点でIBが優位。HPC/AI用途ではIB一強、汎用ネットワーク用途はEthernet優位です。
Q2: NVIDIA買収でInfiniBandは独占? A: NVIDIAが2020年4月Mellanox買収後、HDR/NDR/XDR/LDR世代はNVIDIAの独占に近い状況。Cornelis Networks(旧Intel Omni-Path、2024年)等が代替を提供しますがシェアは限定的、HPC/AI市場の80%以上がNVIDIA Mellanox InfiniBandを採用しています。
Q3: SHARPとは? A: Scalable Hierarchical Aggregation and Reduction Protocolの略で、ConnectX-6 Dx HCA+Quantum HDR SwitchがMPI集団通信(Allreduce/Reduce/Broadcast等)をネットワーク内で並列実行する独自技術。AI訓練のAllreduce処理をスイッチ内で完結させ、CPU-GPU間のオフロードで処理速度を10倍以上向上させます。