MoEエキスパート並列とは？（エムオーイーエキスパートヘイレツ）わかりやすく解説

Q: MoEエキスパート並列とは？

MoEエキスパート並列（Expert Parallelism / EP）は、Mixture-of-Expertsモデルの各エキスパートを異なるGPU/アクセラレータに分散配置し、トークンをAll-to-All通信で適切なGPUに転送して処理する並列化手法である。データ並列やテンソル並列と組み合わせた3D/4D並列化が大規模MoEモデルの学習・推論に不可欠な技術となっている。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

MoEエキスパート並列とは？（エムオーイーエキスパートヘイレツ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

エキスパート並列の仕組み

All-to-All通信パターン

EP の核心はAll-to-All通信である。各GPUが持つトークンバッチのうち、自GPU上にないエキスパートに割り当てられたトークンを他GPUに送信し、処理結果を受信する。

Dispatch（送信）: 各GPUのルーターがトークンの行き先エキスパート（＝行き先GPU）を決定
All-to-All: トークンを行き先GPUに転送（NVLink/InfiniBand経由）
Compute（計算）: 各GPUが自GPU上のエキスパートでトークンを処理
Combine（集約）: 処理結果を元のGPUにAll-to-All通信で返送
Merge（合成）: 元のGPUでゲート値による加重平均を実行

通信コスト

All-to-All通信のデータ量はバッチサイズ・シーケンス長・隠れ次元に比例する。DeepSeek-V3の場合、1回のAll-to-All通信で各GPU間約200MB-1GBのデータが転送される。InfiniBand NDR 400Gbpsで約2-5ms、NVLink（900GB/s）で0.2-1msの遅延が発生する。

並列化戦略の比較

並列化手法	分割対象	通信パターン	適用場面
データ並列（DP）	バッチ	AllReduce（勾配同期）	汎用、小規模モデル
テンソル並列（TP）	重み行列	AllReduce（活性化同期）	単一ノード内、大型層

モデル	GPU数	DP	TP	EP	PP	GPU/エキスパート
Mixtral 8x7B推論	2	1	1	2	1	4 experts/GPU
DeepSeek-V2学習	1024	64	2	8	1	20 experts/GPU
DeepSeek-V3学習	2048	128	2	8	2	32 experts/GPU
Switch-C学習	2048	256	1	2048	1	1 expert/GPU

メニュー

MoEエキスパート並列（エムオーイーエキスパートヘイレツ）

メニュー

MoEエキスパート並列（エムオーイーエキスパートヘイレツ）

この用語に関連するコンテンツ

概要

エキスパート並列の仕組み

All-to-All通信パターン

通信コスト

並列化戦略の比較

大規模MoEモデルの並列構成例

推論環境でのエキスパート並列

エキスパート並列の課題と最適化

よくある質問（FAQ）

まとめ

関連用語