データ並列（DP）・テンソル並列（TP）・パイプライン並列（PP）の3つの並列化手法を同時に組み合わせた大規模分散学習戦略。数百〜数千GPUでの効率的なLLM学習を実現し、Megatron-LMやDeepSpeedが代表的な実装。

3D並列とは？（スリーディーヘイレツ）わかりやすく解説

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

3D並列とは？（スリーディーヘイレツ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

3D並列の構成

3D並列では、全GPU群を3つの次元で論理的にグループ分けする。

テンソル並列（TP）次元: ノード内のGPUグループ（通常8台）。各レイヤーの行列演算を分割。NVLink接続が前提
パイプライン並列（PP）次元: 複数ノードにまたがるステージ。モデルのレイヤー群をステージに分割。InfiniBand/RoCE接続
データ並列（DP）次元: 上記TP×PPで構成された「モデルレプリカ」を複数作り、データを分割して並列学習。AllReduceで勾配同期

例えば64台のH100（8ノード×8GPU）で TP=8, PP=4, DP=2 の場合:

各ノード内の8GPUがTP=8で1レイヤーの行列演算を分割
4ノード（4ステージ）でPP=4のパイプラインを構成
同一構成のパイプラインが2本（DP=2）で並列学習

GPU配置の設計原則

並列次元	通信頻度	通信量/回	推奨接続	配置範囲
TP	極高（毎レイヤー）	hidden_size × batch	NVLink 900GB/s	ノード内
PP	中（ステージ境界）	activation × micro_batch	InfiniBand 400Gbps

モデル	総GPU数	TP	PP	DP	フレームワーク
Llama 3.1 405B	16,384 H100	8	16	128	内製
GPT-NeoX 20B	96 A100	2	4	12	Megatron-DeepSpeed
Bloom 176B	384 A100	4	12	8	Megatron-DeepSpeed
DeepSeek-V3 671B	2,048 H800	1（EP=64）	16	8	内製
Falcon 180B	4,096 A100	8	8	64	内製

スケジュール	バブル率	メモリ使用量	実装複雑度
GPipe	(PP-1)/M	高（全マイクロバッチ保持）	低
1F1B	(PP-1)/M	中（PP個のマイクロバッチ保持）	中
Interleaved 1F1B	(PP-1)/(M×V)	中	高
Zero Bubble	≈0	中	非常に高

# Megatron-LM 3D並列の設定パラメータ例（概念）
# --tensor-model-parallel-size 8    # TP=8（ノード内）
# --pipeline-model-parallel-size 4  # PP=4（4ノードにまたがる）
# --data-parallel-size は自動計算   # DP = 総GPU / (TP × PP)
# --micro-batch-size 1              # マイクロバッチサイズ
# --global-batch-size 2048          # グローバルバッチサイズ
# --num-layers-per-virtual-pipeline-stage 2  # Interleaved 1F1B
# --sequence-parallel                        # シーケンス並列有効化
# --use-flash-attn                           # FlashAttention使用

メニュー

3D並列（スリーディーヘイレツ）

メニュー

3D並列（スリーディーヘイレツ）

この用語に関連するコンテンツ

3D並列とは

3D並列の構成

GPU配置の設計原則

代表的な3D並列構成例

パイプライン並列のスケジューリング

Megatron-LMでの3D並列設定

3D並列の設計指針

4D並列・5D並列への拡張

よくある質問（FAQ）

まとめ

関連用語