MoEルーティングメカニズムは、Mixture-of-Expertsモデルにおいて各入力トークンをどのエキスパートに割り当てるかを決定する仕組みである。ゲーティングネットワークがトークンの隠れ表現からルーティング確率を算出し、上位K個のエキスパートを選択して出力を加重合成する。
MoEルーティングメカニズムとは、Mixture-of-Expertsモデルで各トークンを適切なエキスパートに振り分ける中核的な仕組みである。ルーティングの品質がモデル全体の精度と効率を決定するため、MoE研究の最重要テーマの一つとなっている。
MoE モデルではTransformerブロック内のFFN(Feed-Forward Network)が複数のエキスパートに分割されている。ルーティングメカニズムはトークンの隠れ表現ベクトル h を入力として受け取り、各エキスパートへの割り当てスコア(ルーティング確率)を計算する。最も基本的な実装は線形変換 W_g * h にSoftmaxを適用してTop-Kを選択する方式で、Mixtral 8x7Bが採用している。
2024-2026年にかけてルーティング手法は多様化が進んでいる。DeepSeek-V2のShared Expert + Routed Expert構成、Qwen3のDynamic Top-K、Phi-4-MoEのSoft Routing(全エキスパートに微小な重みを与える)など、モデルごとに独自の改良が施されている。
各トークンが自分の行き先を選ぶ方式。最も一般的な手法で、トークンごとにTop-Kエキスパートを独立に選択する。Mixtral、DeepSeek-V2/V3、Qwen3が採用。
各エキスパートが自分に来るトークンを選ぶ方式。Googleの研究チームが2022年に提案。各エキスパートが処理するトークン数を均等にできるため負荷分散に優れるが、特定トークンがどのエキスパートにも選ばれないドロップ問題が発生しうる。
全エキスパートに微小な重みを割り当てるソフトな方式。完全なスパース性は失われるが、学習の安定性が向上する。Phi-4-MoEの一部構成で採用。
| モデル | ルーティング方式 | Top-K | エキスパート数 | 特殊機構 |
|---|---|---|---|---|
| Mixtral 8x7B | Token Choice + Softmax | 2 | 8 | なし(シンプル線形ゲート) |
| DeepSeek-V2 | Token Choice + Shared Expert | 6 | 160 (2 shared + 160 routed) | Fine-grained Sub-Expert |
| DeepSeek-V3 | Token Choice + Auxiliary-loss-free | 8 | 256 (1 shared + 256 routed) | Bias項による負荷分散 |
| Qwen3-235B | Token Choice + Dynamic K | 可変 | 128 | 入力依存のK値調整 |
| Switch Transformer | Token Choice | 1 | 2048 | Top-1で最大スパース性 |
Q1: Top-Kの値は大きい方が精度が高いのか? A: 一般にKを増やすと精度は向上するが、推論コストも線形に増加する。実験的にはK=2がコスト対精度のバランスが最良とされ、Mixtralが採用している。DeepSeek-V3はK=8だがFine-grained構成で各エキスパートが小さいため実効コストは抑制されている。
Q2: ルーティングは推論時に固定されるのか学習で変化するのか? A: ルーティング重み(ゲーティングネットワークのパラメータ)は学習中に更新される。推論時はこの学習済みパラメータを用いてトークンごとにルーティングが動的に決定される。つまり同じモデルでも入力テキストによってエキスパートの組み合わせが変わる。
Q3: Shared Expertとは何か?DeepSeek-V2/V3で使われている理由は? A: Shared Expertは全トークンが必ず通過する共有エキスパートで、言語の基礎的な知識(文法・一般常識)を担当する。Routed Expertはドメイン特化的な知識を分担する。この分離により、Routed Expertが基礎的な知識を重複して保持する必要がなくなりパラメータ効率が向上する。