RDMA over Converged Ethernet version 2。InfiniBand RDMA を Ethernet + IP ルーティング経由で実現する規格、UDP/IP 使用でデータセンタネットワーク経由の超低遅延 RDMA を実装、AI HPC / NVMe-oF で主流。

RoCE v2とは？（アールオーシーイーブイツー）わかりやすく解説

概要

RoCE v2(アールオーシーイーブイツー、RDMA over Converged Ethernet version 2)は、IBTA(InfiniBand Trade Association)が 2014 年に策定した RDMA(Remote Direct Memory Access、リモートダイレクトメモリアクセス)を Ethernet ネットワーク経由で実現する規格の第 2 世代です。RDMA は本来、InfiniBand(専用高速ネットワーク)上で動作する超低遅延(数 μs レベル)+ ゼロコピー + カーネルバイパスのメモリアクセス技術ですが、RoCE は同じ RDMA セマンティクスを Ethernet 物理層 + IP / UDP の上で動作させる方式です。

RoCE には 2 つのバージョンがあります。RoCE v1(2010、Ethernet 直接、L2 のみ)は、Ethernet フレーム上に直接 InfiniBand ヘッダ + ペイロードを載せる方式で、同一 Layer 2 ブロードキャストドメイン(VLAN)内でしか動作できませんでした。これに対し、RoCE v2(2014)は UDP/IP の上に InfiniBand ヘッダ + ペイロードを載せる方式で、IP ルーティング(Layer 3)経由でも動作可能となり、データセンタネットワーク + ハイパースケーラインフラ全体での RDMA 利用が現実的になりました。

RoCE v2 の最大の利点は、(1)既存の Ethernet ネットワークインフラ(スイッチ + ルータ)で動作する、(2)InfiniBand 専用ネットワーク機材($数千-万 / ポート)を導入する必要がない、(3)IP ルーティング経由で大規模データセンタ全体の RDMA メッシュが構築できる、(4)10 / 25 / 50 / 100 / 200 / 400 GbE Ethernet の進化に追従、(5)業界標準のため複数ベンダーから対応機材が入手可能、などです。

技術的には、RoCE v2 は DCB(Data Center Bridging、データセンタブリッジング)拡張を必要とします。DCB は IEEE 802.1Qbb(PFC、Priority Flow Control、優先度ベースのフロー制御)・IEEE 802.1Qaz(ETS、Enhanced Transmission Selection、帯域配分)・802.1Qau(QCN、Quantized Congestion Notification、混雑通知)などの拡張で、ロスレス Ethernet(パケット損失ゼロ)を実現するために必須です。RDMA はパケット損失に非常に敏感なため、これらの DCB 機能で輻輳制御 + 優先度管理を確実に行う必要があります。

性能は、Mellanox ConnectX-7(2024)+ Spectrum-4 スイッチで 400Gbps RoCE v2 動作、遅延 5-10μs、AI 学習クラスタ + NVMe-oF ストレージで業界最高クラスの性能を実現しています。NVIDIA(Mellanox 買収後)+ Broadcom + Intel + Pensando などが主要 NIC ベンダーで、Cisco / Arista / Juniper などのスイッチベンダーも RoCE v2 対応スイッチを多数提供しています。

主要採用は、AI HPC データセンタ(Microsoft Azure / OpenAI / xAI / Meta / Google Cloud の AI 学習クラスタ、NVIDIA H100 / B100 GPU 間の RDMA 通信で必須)・NVMe-oF over RDMA(Pure Storage / NetApp / Dell EMC の一部 NVMe-oF SAN 製品)・大規模分散計算 + HPC(MPI(Message Passing Interface)over RoCE)・ストレージレプリケーション + クラスタファイルシステム(Lustre / GPFS over RoCE)などです。

主な特徴・仕組み

規格化: IBTA 2014 年 RoCE v2 仕様策定、RoCE v1(2010)の後継。
プロトコルスタック: UDP/IP の上に InfiniBand ヘッダ + ペイロード。
対応 Ethernet: 10 / 25 / 50 / 100 / 200 / 400 GbE。
遅延: 5-10μs(Mellanox ConnectX-7 + Spectrum-4 構成)。
必須技術: DCB(PFC / ETS / QCN)でロスレス Ethernet を実現。
主要 NIC: NVIDIA Mellanox ConnectX-5 / 6 / 7、Intel E810、Pensando Capri、Broadcom Stingray。
主要スイッチ: NVIDIA Spectrum / Cisco Nexus / Arista 7260 / Juniper QFX。
API: libibverbs(InfiniBand 互換 API)、OFED スタック、UCX(Unified Communication X)。
採用: Microsoft Azure / OpenAI / xAI / Meta / Google Cloud / Pure Storage / NetApp。
用途: AI HPC GPU クラスタ + NVMe-oF + 大規模 MPI + 分散計算。

RoCE v2 / 競合 RDMA 規格比較

規格	トランスポート	帯域	遅延	主な採用
RoCE v2	UDP/IP	400Gbps	5-10μs	AI HPC / NVMe-oF 主流
InfiniBand	専用	800Gbps

メニュー

RoCE v2（アールオーシーイーブイツー）

メニュー

RoCE v2（アールオーシーイーブイツー）

概要

主な特徴・仕組み

RoCE v2 / 競合 RDMA 規格比較

この用語に関連するコンテンツ

自作PCユーザー向けの注意点

関連用語との違い

よくある質問(FAQ)

まとめ

関連用語

概要

主な特徴・仕組み

RoCE v2 / 競合 RDMA 規格 比較

この用語に関連するコンテンツ

自作PCユーザー向けの注意点

関連用語との違い

よくある質問(FAQ)

まとめ

関連用語

RoCE v2 / 競合 RDMA 規格比較