PyTorch FSDPとは？（パイトーチエフエスディーピー）わかりやすく解説

Q: PyTorch FSDPとは？

PyTorch公式の完全シャード化データ並列（Fully Sharded Data Parallel）フレームワーク。DeepSpeed ZeROと同様にパラメータ・勾配・オプティマイザ状態をGPU間で分割し、大規模モデルの学習を効率化する。PyTorch 2.0以降で安定版として提供される。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

PyTorch FSDPとは？（パイトーチエフエスディーピー）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

FSDP1とFSDP2の進化

PyTorch 2.4以降、FSDP2（torch.distributed.fsdp2）が導入され、内部実装が大幅に刷新された。

機能	FSDP1	FSDP2
シャーディング単位	FlatParameter（結合テンソル）	DTensor（個別パラメータ）
混合精度	制限あり（FlatParameter単位）	柔軟（パラメータ単位）
テンソル並列統合	非公式	公式サポート（TP+FSDP）
チェックポイント	特殊形式	標準PyTorchフォーマット
メモリ効率	良好	より高い（パディング不要）
通信重畳	手動設定	自動最適化
API	Module単位のラップ

戦略	メモリ削減	通信量	用途
FULL_SHARD	最大（N分割）	AllGather + ReduceScatter	大規模モデル（デフォルト）
SHARD_GRAD_OP	中（勾配+オプティマイザ）	ReduceScatter	中規模モデル
NO_SHARD	なし（DDP相当）	AllReduce	小規模モデル・デバッグ
HYBRID_SHARD	ノード内FULL + ノード間DDP	ノード内AllGather + ノード間AllReduce	マルチノード最適化

from torch.distributed.fsdp import FullyShardedDataParallel as FSDP
from torch.distributed.fsdp import ShardingStrategy, MixedPrecision

# Mixed Precision設定
mp_policy = MixedPrecision(
    param_dtype=torch.bfloat16,
    reduce_dtype=torch.bfloat16,
    buffer_dtype=torch.bfloat16,
)

# FSDPラップ
model = FSDP(
    model,
    sharding_strategy=ShardingStrategy.HYBRID_SHARD,
    mixed_precision=mp_policy,
    auto_wrap_policy=size_based_auto_wrap_policy,
    device_id=torch.cuda.current_device(),
    limit_all_gathers=True,
)

比較項目	FSDP	DeepSpeed ZeRO
段階的最適化	FULL_SHARD固定	Stage 1/2/3選択可
CPUオフロード	基本対応	高度な最適化（Infinity）
NVMeオフロード	未対応	ZeRO-Infinity対応
PyTorch統合	ネイティブ	外部ライブラリ
torch.compile	対応（FSDP2）	制限あり
Megatron統合	FSDP2で公式対応	Megatron-DeepSpeed
HuggingFace統合	Accelerate経由	Trainer直接対応
MoE対応	限定的	DeepSpeed-MoE

メニュー

PyTorch FSDP（パイトーチエフエスディーピー）

メニュー

PyTorch FSDP（パイトーチエフエスディーピー）

この用語に関連するコンテンツ

PyTorch FSDPとは

FSDP1とFSDP2の進化

シャーディング戦略の選択

FSDPの実装パターン

DeepSpeed ZeROとの比較

活性値チェックポイントとメモリ最適化

よくある質問（FAQ）

Q1: FSDPとDDPのどちらを使うべきですか？

Q2: FSDP2への移行は必要ですか？

Q3: FSDPのメモリ使用量を見積もるには？

関連用語