1. ホーム
  2. AMDがInstinct MI100 GPUを発表、CDNAが10 TFLOPSの障壁を打ち破る

AMDがInstinct MI100 GPUを発表、CDNAが10 TFLOPSの障壁を打ち破る

2020-11-25 10:45

AMDは本日、7nm Instinct MI100 GPUを発表し、Dell、HPE、Supermicroなどから多数のデザインを獲得しました。 Instinct MI100は、AMDのコンピューティングに焦点を合わせたCDNAGPUアーキテクチャの最初のイテレーションを示しています。新しいアーキテクチャは、最大11.5 TFLOPSのピークFP64スループットを提供し、Instinct MI100をFP64で10TFLOPSを破る最初のGPUにし、前世代のMI50の3倍の改善を示します。また、FP32ワークロードで23.1 TFLOPSのピークスループットを誇り、他の数値形式とは異なりますが、これらのカテゴリの両方でNvidiaの獣のようなA100GPUを上回っています。

データセンターGPUから予想されるように、PCIe 4.0カードはAIおよびHPCワークロード用に設計されており、カード間のピアツーピア(P2P)I / O帯域幅を2倍にするAMDの第2世代Infinityファブリックもサポートしています。このファブリックにより、カードはCPUと統合されたメモリアドレス空間を共有できます。これは、現在データセンタークラスのGPUを出荷している唯一のCPUベンダーとしての地位を活用しているため、AMDにとって重要な利点です。このカードは、3つのInfinityFabricリンクで最大340GB / sの総スループットを誇り、クアッドコアハイブ(サーバーごとに最大2つ)にデプロイされるように設計されており、各ハイブは最大552 GB / sのP2PI /をサポートします。 O帯域幅。

Instinct MI100は、FP32、FP16、bFloat 16、INT8、INT4などの単精度および混合精度の行列演算のパフォーマンスを向上させるAMDの新しい行列コアテクノロジーもサポートしています。その技術により、FP32のパフォーマンスが最大46.1TFLOPSに向上します。

カードには、最大1.23 TB / sの帯域幅の合計を提供する4つのスタックに分散された32GBのHBM2メモリが付属しています。 AMDは、カードがNvidiaのA100 GPUと比較して、1ドルあたり最大1.8倍から2.1倍高いピークパフォーマンスを提供すると主張しています。

AMDはまた、オープンソースのROCm 4.0開発者ソフトウェアにオープンソースコンパイラがあり、OpenMP 5.0、HIP、PyTorch、Tensorflowを統合的にサポートしていることも発表しました。

このカードには300WTDPがあり、電源用の2つの8ピンコネクタを備えた標準のPCIeアドインカード(AIC)フォームファクタで提供されます。 データセンターに焦点を当てているため、カードにはディスプレイ出力がなく、パッシブ冷却カードには、効率的なエアフローのために大きなメッシュを備えた背面I / Oシールドがあります。

AMDは、MI100のピーククロックレートを前世代のMI50の1,725MHzから1,502MHzにダイヤルバックしましたが、計算ユニットの数を最大120に倍増しました。同社はメモリ帯域幅も1.23 TB / sに改善しました。

CDNAアーキテクチャの改善の正味の効果(以下で説明します)は、ピークFP64およびFP32スループットで1.74倍のゲインを実現し、マトリックスFP32で3.46倍のゲイン、マトリックスFP16で6.97倍のゲインを実現します。 これらの利点は、混合データ型用に最適化された新しいMatrix CoreEngineでCUを強化するAMDの新しいMatrixCoreテクノロジーのおかげです。

AMDのMI100は、ピークFP64およびFP32スループットでNvidia A100を約15%上回っていますが、NvidiaのA100は、マトリックスFP32、FP16、INT4 / INT8およびbFloat16ワークロードではるかに優れたスループットを提供します。

AMDは、MI100が6メガワットのASCI Whiteに匹敵すると宣伝しています。これは、重量が106トンで、12.3TFLOPSのパフォーマンスを提供する2000年の世界最速のスーパーコンピューターです。 対照的に、MI1000は電力を300Wに下げ、重量はわずか2.56ポンドで、11.5TFLOPSのパフォーマンスを発揮します。

AMD Instinct MI100 CDNAアーキテクチャ

AMDは、グラフィックスアーキテクチャをグラフィックスに焦点を当てた作業(ゲーム)用のRDNAプラットフォームとコンピューティングワークロード(HPC / AIワークロード)用のCDNAに分割し、それぞれのアーキテクチャに的を絞った拡張機能を提供できるようにしました。当然のことながら、CDNA設計には、ラスタライズ、テッセレーション、グラフィックキャッシュ、ブレンディング、表示エンジンなど、グラフィック作業に必要な従来の固定機能ブロックの多くが含まれていません。 CDNAアーキテクチャは、HEVC、H.264、およびVP9デコード用のロジックを保持しています。これは、オブジェクト検出に重点を置く機械学習ワークロードにとって重要です。

7nm Instinct MI100は、CDNAアーキテクチャの最初のイテレーションであり、CPUへの16 GT / sリンク(32 GB / s双方向)をサポートするPCIe4.0インターフェイスが付属しています。 AMDは、使用する7nmのリビジョンである7nmダイのサイズ、またはトランジスタ数を共有していませんが、120個の拡張CUが4つのコンピューティングエンジンに分割されていることはわかっています。各CUは、AMDが次のように説明しているさまざまな数値形式の計算スループットを向上させるマトリックスコアエンジンを備えています。

「従来のGCNコンピューティングコアには、スカラーおよびベクトル命令用に最適化されたさまざまなパイプラインが含まれています。特に、各CUには、スカラーレジスタファイル、スカラー実行ユニット、および波面全体で共有される命令を処理するためのスカラーデータキャッシュが含まれています。同様に、CUには、4つの大きなベクトルレジスタファイル、FP32用に最適化された4つのベクトル実行ユニット、およびベクトルデータキャッシュも含まれています。通常、ベクトルパイプラインは16幅で、それぞれ64幅です。ウェーブフロントは4サイクルにわたって実行されます。」

「AMDCDNAアーキテクチャは、GCNのスカラーとベクトルの基盤に基づいて構築され、第一級市民としてマトリックスを追加すると同時に、機械学習用の新しい数値形式のサポートを追加し、GCNアーキテクチャ用に作成されたソフトウェアの下位互換性を維持します。これらのマトリックスコアエンジンは、ウェーブフロントレベルの命令の新しいファミリであるMatrixFused Multiply-AddまたはMFMA。MFMAファミリは、混合精度の演算を実行し、4つの異なるタイプの入力データ(8ビット整数(INT8)、16ビット)を使用してKxNマトリックスを操作します。半精度FP(FP16)、16ビットブレインFP(bf16)、および32ビット単一精度(FP32)。すべてのMFMA命令は、32ビット整数(INT32)またはFP32出力のいずれかを生成し、オーバーフローの可能性を低減します。行列乗算の最終蓄積段階中。」

行列実行ユニットはMFMA命令を処理し、多くの行列乗算入力値が再利用されるため、レジスタファイルの読み取り回数を減らします。

共有8MBL2キャッシュは、物理的に32スライス(MI50の2倍)に分割され、16ウェイセットアソシアティブです。全体として、32スライスは最大6TB /秒の総スループットを提供します。メモリコントローラーは、2.4 GT / sでECCHBM2の4または8の高さのスタックをサポートし、理論上の総スループットは1.23 TB / sです。これは、前世代のモデルよりも20%高速です。

AMD第2世代Infinityファブリック

AMDのCPU-to-GPUInfinity Fabricは、同社が多数のエクサスケール契約を獲得するのに役立った重要な進歩であることが証明されています。このテクノロジーにより、CPUとGPU間の共有メモリ/キャッシュコヒーレンシにより、システム内のデータ移動量を削減することで、レイテンシーを削減し、パフォーマンスを向上させ、消費電力を削減できます。

第2世代のInfinityFabricリンクは23GT / sで動作し、前世代と同様に16ビット幅ですが、最新のリビジョンでは、クアッドGPU構成を有効にするための第3のリンクがサポートされています。この新しい設計は、クアッドGPUハイブで最適に機能し、一般的な2ソケットサーバーは2つのハイブ(CPUごとに1つ)をサポートします。

これらのハイブは完全に接続されたトポロジで動作しますが、以前のアクセラレータはリングトポロジを使用していました。新しいトポロジは、とりわけ、all-reduceおよびscatter / gather操作中のパフォーマンスを向上させます。

全体として、AMDの第2世代Infinity Fabricは、ピアツーピア(P2P)I / O帯域幅の2倍を提供し、カードあたり最大2つの340 GB / sのスループット(3つのリンク)を備えています。クアッドGPUハイブは、最大552 GB / sのP2PI / OPスループットを提供します。これは、ファブリックが線形にスケーリングしないことを示しています。

完全に接続されたトポロジと共有アドレス空間は、Nvidiaに対するAMDの重要な利点であり、いくつかの注目すべきエクサスケールのスーパーコンピューティング契約につながっています。特に、Nvidiaはまだエクサスケールのスーパーコンピューター契約を発表していませんが、AMDのアクセラレーターはすでにスーパーコンピューティングとHPCの分野で広く受け入れられています。

AMDはまた、Instinct MI100を搭載した完全認定OEMシステムが、年末までにDell、Gigabyte、HPE、Lenovoなどの主要OEMから入手可能になることを発表しました。

ソース:Tom's Hardware
シェア