DeepSpeed ZeROとは？（ディープスピードゼロ）わかりやすく解説

Q: DeepSpeed ZeROとは？

Microsoft Research が開発した分散学習最適化技術。Zero Redundancy Optimizer の略で、データ並列学習時のメモリ冗長性を排除し、数千GPUへのスケーリングを可能にする。Stage 1〜3の段階的なメモリ削減とCPU/NVMeオフロードを提供する。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

DeepSpeed ZeROとは？（ディープスピードゼロ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

ZeRO Stage 1/2/3の段階的最適化

ZeROは3つのステージで段階的にメモリを削減する。各ステージの特性を理解し、モデルサイズとGPU数に応じて最適なステージを選択することが重要である。

ステージ	分割対象	メモリ削減率	通信量（vs DDP）	推奨用途
Stage 1（ZeRO-1）	オプティマイザ状態のみ	最大4倍	同等	〜30Bモデル、少数GPU
Stage 2（ZeRO-2）	オプティマイザ状態 + 勾配	最大8倍	同等	〜70Bモデル、中規模クラスタ
Stage 3（ZeRO-3）	オプティマイザ状態 + 勾配 + パラメータ	最大N倍（GPU数比例）	1.5倍	100B+モデル、大規模クラスタ

Stage 1: オプティマイザ状態のシャーディング

各GPUがオプティマイザ状態（Adamの場合12B/パラメータ）の1/Nのみを保持する。Forward/Backwardは通常のDDPと同様に実行し、AllReduce後に各GPUが担当するパラメータのオプティマイザ更新のみ行う。通信量はDDPと完全に同等で、オーバーヘッドなくメモリを最大4倍削減できる。

Stage 2: 勾配のシャーディング追加

オフロード先	帯域幅	容量（典型）	適用シナリオ
GPUメモリのみ	3.35 TB/s（HBM3e）	80-192 GB/GPU	標準的な学習
CPU DRAM	200 GB/s（DDR5）	512 GB-2 TB/ノード	大規模モデル・少数GPU
NVMe SSD	7-14 GB/s（Gen4/5）	2-8 TB/ノード	超大規模モデル・メモリ極限

{
  "bf16": {"enabled": true},
  "zero_optimization": {
    "stage": 3,
    "offload_optimizer": {"device": "cpu", "pin_memory": true},
    "offload_param": {"device": "cpu", "pin_memory": true},
    "overlap_comm": true,
    "contiguous_gradients": true,
    "sub_group_size": 1e9,
    "reduce_bucket_size": "auto",
    "stage3_prefetch_bucket_size": "auto",
    "stage3_param_persistence_threshold": "auto",
    "stage3_max_live_parameters": 1e9,
    "stage3_max_reuse_distance": 1e9
  },
  "gradient_accumulation_steps": 4,
  "train_micro_batch_size_per_gpu": 2,
  "wall_clock_breakdown": false
}

メニュー

DeepSpeed ZeRO（ディープスピードゼロ）

メニュー

DeepSpeed ZeRO（ディープスピードゼロ）

この用語に関連するコンテンツ

DeepSpeed ZeROとは

ZeRO Stage 1/2/3の段階的最適化

Stage 1: オプティマイザ状態のシャーディング

Stage 2: 勾配のシャーディング追加

Stage 3: パラメータのシャーディング追加

ZeRO-Infinity: CPU/NVMeオフロード

DeepSpeed設定例と実践

DeepSpeed-MoEとUlyssesの拡張

よくある質問（FAQ）

Q1: ZeRO Stage 2とStage 3のどちらを選ぶべきですか？

Q2: ZeRO-OffloadとFSDPのCPUオフロードの違いは？

Q3: DeepSpeedとMegatron-LMを併用できますか？

関連用語