RDMA over Converged Ethernet version 2。InfiniBand RDMA を Ethernet + IP ルーティング経由で実現する規格、UDP/IP 使用でデータセンタネットワーク経由の超低遅延 RDMA を実装、AI HPC / NVMe-oF で主流。
RoCE v2(アールオーシーイー ブイツー、RDMA over Converged Ethernet version 2)は、IBTA(InfiniBand Trade Association)が 2014 年に策定した RDMA(Remote Direct Memory Access、リモートダイレクトメモリアクセス)を Ethernet ネットワーク経由で実現する規格の第 2 世代です。RDMA は本来、InfiniBand(専用高速ネットワーク)上で動作する超低遅延(数 μs レベル)+ ゼロコピー + カーネルバイパスのメモリアクセス技術ですが、RoCE は同じ RDMA セマンティクスを Ethernet 物理層 + IP / UDP の上で動作させる方式です。
RoCE には 2 つのバージョンがあります。RoCE v1(2010、Ethernet 直接、L2 のみ)は、Ethernet フレーム上に直接 InfiniBand ヘッダ + ペイロードを載せる方式で、同一 Layer 2 ブロードキャストドメイン(VLAN)内でしか動作できませんでした。これに対し、RoCE v2(2014)は UDP/IP の上に InfiniBand ヘッダ + ペイロードを載せる方式で、IP ルーティング(Layer 3)経由でも動作可能となり、データセンタネットワーク + ハイパースケーラインフラ全体での RDMA 利用が現実的になりました。
RoCE v2 の最大の利点は、(1)既存の Ethernet ネットワークインフラ(スイッチ + ルータ)で動作する、(2)InfiniBand 専用ネットワーク機材($数千-万 / ポート)を導入する必要がない、(3)IP ルーティング経由で大規模データセンタ全体の RDMA メッシュが構築できる、(4)10 / 25 / 50 / 100 / 200 / 400 GbE Ethernet の進化に追従、(5)業界標準のため複数ベンダーから対応機材が入手可能、などです。
技術的には、RoCE v2 は DCB(Data Center Bridging、データセンタブリッジング)拡張を必要とします。DCB は IEEE 802.1Qbb(PFC、Priority Flow Control、優先度ベースのフロー制御)・IEEE 802.1Qaz(ETS、Enhanced Transmission Selection、帯域配分)・802.1Qau(QCN、Quantized Congestion Notification、混雑通知)などの拡張で、ロスレス Ethernet(パケット損失ゼロ)を実現するために必須です。RDMA はパケット損失に非常に敏感なため、これらの DCB 機能で輻輳制御 + 優先度管理を確実に行う必要があります。
性能は、Mellanox ConnectX-7(2024)+ Spectrum-4 スイッチで 400Gbps RoCE v2 動作、遅延 5-10μs、AI 学習クラスタ + NVMe-oF ストレージで業界最高クラスの性能を実現しています。NVIDIA(Mellanox 買収後)+ Broadcom + Intel + Pensando などが主要 NIC ベンダーで、Cisco / Arista / Juniper などのスイッチベンダーも RoCE v2 対応スイッチを多数提供しています。
主要採用は、AI HPC データセンタ(Microsoft Azure / OpenAI / xAI / Meta / Google Cloud の AI 学習クラスタ、NVIDIA H100 / B100 GPU 間の RDMA 通信で必須)・NVMe-oF over RDMA(Pure Storage / NetApp / Dell EMC の一部 NVMe-oF SAN 製品)・大規模分散計算 + HPC(MPI(Message Passing Interface)over RoCE)・ストレージレプリケーション + クラスタファイルシステム(Lustre / GPFS over RoCE)などです。
| 規格 | トランスポート | 帯域 | 遅延 | 主な採用 |
|---|---|---|---|---|
| RoCE v2 | UDP/IP | 400Gbps | 5-10μs | AI HPC / NVMe-oF 主流 |
| InfiniBand | 専用 | 800Gbps |
| 1-5μs |
| スパコン |
| iWARP | TCP/IP | 100Gbps | 30-50μs | 限定 |
| NVMe-oF over TCP | TCP/IP | 100Gbps | 100-200μs | クラウド主流 |
RoCE v2 はエンタープライズデータセンタ向け技術で、コンシューマ自作 PC で必要になる場面は限定的です。価格は Mellanox ConnectX-6 RoCE 100GbE NIC が新品 $500-1,500、対応 Spectrum スイッチが $5,000-30,000 と高額です。
ホームラボ用途では、中古 Mellanox ConnectX-4 / 5 25/50/100GbE NIC(eBay / 中古市場で ¥10,000-30,000)+ Mellanox SX1012 / SX1018 中古スイッチ(¥30,000-80,000)で、自宅で 25-100GbE RoCE v2 ネットワークを構築可能です。Linux + iWARP / RoCE OFED スタック + nvme-cli で NVMe-oF / RDMA 学習 + Kubernetes / OpenStack 統合の業務知識習得に有用です。
Q1: RoCE v2 と iWARP の違いは何ですか? A: RoCE v2 は UDP/IP ベースで遅延 5-10μs(高速)、iWARP は TCP/IP ベースで遅延 30-50μs(やや低速)です。RoCE v2 のほうが性能で圧倒的に優位ですが、DCB 設定 + ロスレス Ethernet 構築が必要で導入難易度が高い、iWARP は標準 Ethernet で動作するため導入が容易、というトレードオフがあります。
Q2: AI 学習で RoCE v2 が必須なのはなぜですか? A: 大規模 LLM(GPT-4 / Claude / Llama 等)の学習では、複数の GPU(数百-数万個)間で頻繁な勾配同期 + パラメータ共有が発生します。これを高速 RDMA で実装することで、学習時間を大幅短縮できます。RoCE v2 は AI 学習データセンタの事実上の業界標準です。
Q3: 自宅で RoCE v2 を試す方法は? A: 中古 Mellanox ConnectX-4 / 5 25/50/100GbE NIC + 中古 Mellanox スイッチを購入し、Ubuntu / RHEL に MLNX_OFED ドライバをインストール、ConnectX 設定で RoCE v2 モード + DCB(PFC)有効化で動作させます。Linux ibverbs + perftest ツールで性能測定可能です。