MoEゲーティングネットワーク(ルーター)は、Mixture-of-Expertsモデルにおいてトークンの隠れ表現から各エキスパートへの割り当てスコアを計算する小規模なニューラルネットワークである。線形変換+Softmax方式が基本形で、Top-Kフィルタリングによりスパース活性化を実現する。
MoEゲーティングネットワークとは、Mixture-of-Expertsモデルでトークンとエキスパートのマッチングを制御する中枢コンポーネントである。「ルーター」とも呼ばれ、どのエキスパートがどのトークンを処理すべきかを動的に判断する。
ゲーティングネットワークの基本アーキテクチャは非常にシンプルで、隠れ表現ベクトル h(例: 4096次元)を入力として、エキスパート数 N 次元の確率分布を出力する線形変換 g(h) = Softmax(W_g * h) である。ここで W_g は N × d_model の重み行列で、学習可能なパラメータとして更新される。
この確率分布から上位 K 個のエキスパートが選択され、それぞれの出力がゲート値(確率)で加重平均される。例えばTop-2選択の場合、出力 y は y = g_1 * E_1(h) + g_2 * E_2(h) となる(g_1, g_2は正規化されたゲート値、E_1, E_2は選択されたエキスパートの出力)。
2024-2026年のMoEモデルでは、この基本形に様々な改良が加えられている。DeepSeek-V3のBias項による負荷分散、Qwen3のDynamic Top-K選択、Phi-4-MoEのSoft Routing(全エキスパートに微小重み付与)など、モデルごとに独自のゲーティング戦略が開発されている。
最もシンプルで広く使われる実装。gate_logits = W_g @ h で各エキスパートのスコアを計算し、Softmax後にTop-Kを選択する。Mixtral 8x7B/8x22Bで採用。利点は実装の単純さとデバッグの容易さ。
2017年のShazeerらの論文で提案された手法。ゲートlogitsにガウスノイズを付加してからTop-Kを選択する。ノイズにより探索が促進され、学習初期にエキスパートの利用が均等化される。Switch Transformerで採用。
従来の補助損失関数(Load Balancing Loss)を廃止し、各エキスパートに学習可能なBias項を付与する方式。Bias項がエキスパートの「人気度」を調整し、過負荷エキスパートのBiasを下げることで負荷分散を実現する。補助損失がメインタスクの学習を阻害しないため精度向上が報告されている。
| 手法 | 代表モデル | 負荷分散メカニズム | 精度影響 | 実装難度 |
|---|---|---|---|---|
| Linear + Aux Loss | Mixtral | 補助損失関数 | やや低下 | 低 |
| Noisy Top-K | Switch Transformer | ガウスノイズ注入 | 中程度 | 低 |
| Aux-loss-free + Bias | DeepSeek-V3 | 学習可能Bias項 | 低下なし | 中 |
| Expert Choice | EC-MoE (Google) | エキスパート側選択 | 高い | 高 |
| Soft MoE | Phi-4-MoE一部 | 全エキスパート微小重み | 高い | 中 |
Q1: ゲーティングネットワーク自体のパラメータ数はモデル全体の何%を占めるのか? A: ゲーティングネットワークは単一の線形変換層(d_model × N_experts)で、パラメータ数は非常に小さい。Mixtral 8x7B(d_model=4096, N=8)の場合、各Transformerブロックのルーターは4096×8=32,768パラメータで、モデル全体の0.001%未満。計算コストもほぼ無視できる。
Q2: ゲーティングの結果を可視化することはできるのか? A: はい。ルーターのゲート確率を抽出し、トークンごとにどのエキスパートが選択されたかをヒートマップで可視化する手法が一般的。Mixtral 8x7Bでは「If」「def」「import」などのコードトークンがエキスパート4に集中し、日本語トークンがエキスパート7に集中する傾向が報告されている。
Q3: ゲーティングはTransformerの全レイヤーで同じ構成にすべきか? A: 必ずしもそうではない。研究レベルでは、浅い層はデンス(全エキスパート活性化)、深い層はスパース(Top-K選択)にするハイブリッド構成が効果的との報告がある。ただし2025年時点の主要モデル(Mixtral, DeepSeek, Qwen)は全層同一構成を採用しており、実用上は統一構成で十分な性能が得られている。