Mixture-of-Experts(MoE)は、複数の専門サブネットワーク(エキスパート)とゲーティング機構を組み合わせ、入力トークンごとに一部のエキスパートのみを活性化するスパースモデル設計手法である。総パラメータ数を大幅に増やしつつ推論時の計算コストを抑制できる点が最大の特徴で、Mixtral 8x7B・DeepSeek-V3・Gemini 1.5 Pro など2024-2026年の主要LLMが採用している。
Mixture-of-Experts(MoE)アーキテクチャとは、複数の専門ネットワーク(エキスパート)をルーティング機構で切り替えるスパースモデル設計である。全パラメータを常時使うデンスモデルと異なり、入力トークンごとに Top-K のエキスパートだけが計算に参加するため、総パラメータ数の割に推論 FLOPS を低く保てる。
MoE の着想は 1991 年の Jacobs らの論文に遡るが、LLM 領域で本格的に注目を集めたのは 2024 年 1 月の Mixtral 8x7B リリース以降である。従来のデンス 7B モデルと同等の推論コストで 45B 相当のパラメータ容量を持ち、多くのベンチマークで LLaMA 2 70B を上回る精度を達成した。2025-2026 年には DeepSeek-V3(671B 総パラメータ / 37B 活性化)、Phi-4-MoE(16 エキスパート / 2 活性化で 17B 活性化)、Qwen3-235B-A22B、Google Gemini 1.5 Pro など、商用・OSSともに MoE 採用が標準化しつつある。
MoE の基本構成は エキスパート層(Feed-Forward Network を複数コピー)と ゲーティングネットワーク(ルーター)の 2 コンポーネントである。Transformer の各ブロック内で、Self-Attention は共有のまま、FFN 部分を N 個のエキスパートに分割し、ルーターが各トークンに対して Top-K(通常 K=2)のエキスパートを選択してその出力を加重平均する。
| モデル | 総パラメータ | 活性化パラメータ | エキスパート数 | Top-K | リリース | 特徴 |
|---|---|---|---|---|---|---|
| Mixtral 8x7B | 46.7B |
| 12.9B |
| 8 |
| 2 |
| 2024-01 |
| 初の商用級 OSSMoE、Apache 2.0 |
| Mixtral 8x22B | 176B | 39B | 8 | 2 | 2024-04 | 大型版、多言語強化 |
| DeepSeek-V2 | 236B | 21B | 160 | 6 | 2024-05 | Fine-grained MoE + DeepSeekMoE |
| DeepSeek-V3 | 671B | 37B | 256 | 8 | 2025-01 | MLA + MoE、コスト効率最高 |
| Phi-4-MoE | 66B | 17B | 16 | 2 | 2025-07 | Microsoft、小型高効率 |
| Qwen3-235B-A22B | 235B | 22B | 128 | 8 | 2025-04 | Alibaba、長コンテキスト |
| Gemini 1.5 Pro | 非公開 | 非公開 | 非公開 | 非公開 | 2024-02 | Google、1M コンテキスト |
| 比較項目 | デンスモデル(LLaMA 3 70B) | MoE モデル(Mixtral 8x7B) |
|---|---|---|
| 総パラメータ | 70B | 46.7B |
| 推論活性化 | 70B(全パラメータ) | 12.9B(Top-2 エキスパート) |
| 推論速度 | 基準 | 約 2-3 倍高速 |
| VRAM 使用量 | FP16 で約 140GB | FP16 で約 90GB(全エキスパート保持) |
| 学習収束 | 基準 | 2-4 倍速い収束 |
| ベンチマーク精度 | MMLU 79.5 | MMLU 70.6(パラメータ効率では優位) |
MoE モデルを自作 PC やローカル環境で運用する際のポイントを整理する。
--n-gpu-layers でエキスパートの一部を CPU にオフロード可能。ただしエキスパート切替時に CPU-GPU 間転送が発生し速度低下するQ1: MoE モデルはデンスモデルより精度が高いのか? A: 同じ推論コスト(FLOPS)で比較するとMoEの方が高精度になる傾向がある。ただし同じ総パラメータ数で比較すると、デンスモデルの方がパラメータあたりの利用効率は高い。MoEの利点は「少ない計算量で大きなモデル容量を活用できる」点にある。
Q2: MoE モデルのローカル実行に必要な最低スペックは? A: Mixtral 8x7B の Q4_K_M 量子化版で約 26GB VRAM が目安。RTX 4090 + CPU オフロードか、RTX 3090×2(各 24GB)の構成が現実的。DeepSeek-V3 のフル精度は 1.2TB 以上の VRAM が必要で個人環境では非現実的だが、Q4 量子化で約 340GB まで圧縮可能。
Q3: Fine-grained MoE と通常の MoE の違いは? A: 通常の MoE は各エキスパートが独立した FFN(例: 隠れ層 4096 次元)だが、Fine-grained MoE は 1 つのエキスパートをさらに小さなサブエキスパート(例: 隠れ層 1024 次元×4)に分割する。DeepSeek-V2 で提案された手法で、ルーティングの粒度が細かくなりトークンとエキスパートのマッチング精度が向上する。
Q4: MoE モデルの学習にはどのようなインフラが必要か? A: Mixtral 8x7B クラスの学習には A100 80GB×64 台以上が目安。DeepSeek-V3 は H100×2048 台で約 2 ヶ月の学習を実施し、学習コストは約 557 万ドルと報告されている。エキスパート並列とデータ並列を組み合わせた 3D 並列化が標準的な手法。