概要
Cerebras CS-3は2024年3月にCerebras Systemsが発表したWafer Scale Engine 3 (WSE-3)を搭載したAI学習システム単体。1枚の300mmシリコンウェハー全体を1個のチップとして使う独自アーキテクチャは業界唯一で、CS-2(2021)から大幅性能向上を実現。900,000個のAIコア、44GB on-chip SRAM、TSMC N5プロセスで製造され、単一システムで125 PFLOPS BF16の演算性能を持つ。Llama 3.1 405Bパラメータモデルが単一CS-3でフィットし、メモリ転送オーバーヘッドゼロで学習可能。アブダビG42社との共同プロジェクト「Condor Galaxy」の主要構成要素として、Andromeda 2 Cluster(64x CS-3)規模で展開される。NVIDIA H100クラスタ(数千chip)に匹敵する計算能力を、はるかに少ないチップ数で実現する点が最大の特徴。
主な特徴・仕組み
- Wafer Scale Engine 3 (WSE-3): 215×215mm単一シリコン、TSMC N5、4 trillion transistor、業界最大半導体
- AIコア数: 900,000個 Sparse Linear Algebra Compute(SLAC)、CS-2(850K)比+5.9%
- On-chip SRAM: 44GB、メモリ帯域21 PB/s(ペタバイト/秒)、HBMより1000倍高速
- 演算性能: 125 PFLOPS BF16、62.5 PFLOPS FP32、CS-2(7.5 PFLOPS BF16)比17倍
- Memory eXtension (MemoryX): 外部メモリシステム、最大1.2 PBストレージ拡張可能
- Wafer Cluster Service: SwarmX相互接続で64台までCS-3クラスタ化、240 PFLOPS級
- Llama 3.1 405B学習: 単一CS-3でモデルフィット、56秒/iter、H100クラスタ比10倍速
- Cerebras Inference Service: WSE-3を使った推論クラウド、Llama 3.1 70B 2,100 tok/sec、業界最速
- Spark Generation Workload: トレーニングと推論を同一HW上で並走、データセンター効率化
- Condor Galaxy AI Supercomputer: G42との共同建設、9 systems計画、最大36 ExaFLOPS規模
- 電力効率: ピーク23kW/system、Llama学習でNVIDIA cluster比50%電力削減
スペック比較表
| 項目 | CS-3 | CS-2 (前世代) | NVIDIA H100 cluster (32x) | Google TPU v5p pod |
|---|
|