MoEルーティングメカニズムとは？（エムオーイールーティングメカニズム）わかりやすく解説

Q: MoEルーティングメカニズムとは？

MoEルーティングメカニズムは、Mixture-of-Expertsモデルにおいて各入力トークンをどのエキスパートに割り当てるかを決定する仕組みである。ゲーティングネットワークがトークンの隠れ表現からルーティング確率を算出し、上位K個のエキスパートを選択して出力を加重合成する。

ルーティング手法の分類

Token Choice ルーティング

各トークンが自分の行き先を選ぶ方式。最も一般的な手法で、トークンごとにTop-Kエキスパートを独立に選択する。Mixtral、DeepSeek-V2/V3、Qwen3が採用。

Expert Choice ルーティング

各エキスパートが自分に来るトークンを選ぶ方式。Googleの研究チームが2022年に提案。各エキスパートが処理するトークン数を均等にできるため負荷分散に優れるが、特定トークンがどのエキスパートにも選ばれないドロップ問題が発生しうる。

Soft Routing

全エキスパートに微小な重みを割り当てるソフトな方式。完全なスパース性は失われるが、学習の安定性が向上する。Phi-4-MoEの一部構成で採用。

主要モデルのルーティング比較

モデル	ルーティング方式	Top-K	エキスパート数	特殊機構
Mixtral 8x7B	Token Choice + Softmax	2	8	なし（シンプル線形ゲート）
DeepSeek-V2	Token Choice + Shared Expert	6	160 (2 shared + 160 routed)	Fine-grained Sub-Expert
DeepSeek-V3	Token Choice + Auxiliary-loss-free	8	256 (1 shared + 256 routed)	Bias項による負荷分散
Qwen3-235B	Token Choice + Dynamic K	可変	128	入力依存のK値調整
Switch Transformer	Token Choice	1	2048	Top-1で最大スパース性

ルーティングの課題と対策

負荷不均衡問題: 特定のエキスパートにトークンが集中し、他のエキスパートが遊休状態になる。対策として補助損失（Auxiliary Loss）を学習目標に加え、均等な割り当てを促す。DeepSeek-V3はAuxiliary-loss-free手法でBias項のみで分散を実現

トークンドロップ: 負荷制限（Capacity Factor）を設定するとオーバーフローしたトークンがドロップされる。Expert Choice方式やDynamic Capacity Factorで緩和可能

学習不安定性: ルーティング確率が学習初期に振動し、エキスパートの特化が進まない問題。Z-loss（ルーターlogitsのL2正則化）やJitter Noise（ルーター入力にノイズ付加）で安定化

通信オーバーヘッド: マルチGPU環境でトークンをエキスパート所在のGPUに転送するAll-to-All通信が発生。DeepSeek-V3はPrefill段階で冗長計算を許容し通信を削減する手法を採用

よくある質問（FAQ）

Q1: Top-Kの値は大きい方が精度が高いのか？ A: 一般にKを増やすと精度は向上するが、推論コストも線形に増加する。実験的にはK=2がコスト対精度のバランスが最良とされ、Mixtralが採用している。DeepSeek-V3はK=8だがFine-grained構成で各エキスパートが小さいため実効コストは抑制されている。

Q2: ルーティングは推論時に固定されるのか学習で変化するのか？ A: ルーティング重み（ゲーティングネットワークのパラメータ）は学習中に更新される。推論時はこの学習済みパラメータを用いてトークンごとにルーティングが動的に決定される。つまり同じモデルでも入力テキストによってエキスパートの組み合わせが変わる。

Q3: Shared Expertとは何か？DeepSeek-V2/V3で使われている理由は？ A: Shared Expertは全トークンが必ず通過する共有エキスパートで、言語の基礎的な知識（文法・一般常識）を担当する。Routed Expertはドメイン特化的な知識を分担する。この分離により、Routed Expertが基礎的な知識を重複して保持する必要がなくなりパラメータ効率が向上する。

まとめ

ルーティングメカニズムはMoEの性能を左右する最重要コンポーネント

Token Choice方式が主流、Top-K=2がコスト対精度の標準的なバランス点

負荷分散・学習安定性・通信コストが三大課題、各モデルが独自の解決策を提案

DeepSeek-V3のAuxiliary-loss-free手法とShared Expert構成が2025年時点の最先端

メニュー

MoEルーティングメカニズム（エムオーイールーティングメカニズム）

この用語に関連するコンテンツ

メニュー

MoEルーティングメカニズム（エムオーイールーティングメカニズム）

この用語に関連するコンテンツ

概要

ルーティング手法の分類

Token Choice ルーティング

Expert Choice ルーティング

Soft Routing

主要モデルのルーティング比較

ルーティングの課題と対策

よくある質問（FAQ）

まとめ

関連用語