Mixture-of-Experts（MoE）アーキテクチャとは？（ミクスチャーオブエキスパーツアーキテクチャ）わかりやすく解説

Q: Mixture-of-Experts（MoE）アーキテクチャとは？

Mixture-of-Experts（MoE）は、複数の専門サブネットワーク（エキスパート）とゲーティング機構を組み合わせ、入力トークンごとに一部のエキスパートのみを活性化するスパースモデル設計手法である。総パラメータ数を大幅に増やしつつ推論時の計算コストを抑制できる点が最大の特徴で、Mixtral 8x7B・DeepSeek-V3・Gemini 1.5 Pro など2024-2026年の主要LLMが採用している。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Mixture-of-Experts（MoE）アーキテクチャとは？（ミクスチャーオブエキスパーツアーキテクチャ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

主な特徴・仕組み

スパース活性化: 入力トークンごとに全エキスパートのうち Top-K（通常 2 個）のみを計算に使用。Mixtral 8x7B は 8 エキスパート中 2 つを選択し、推論 FLOPS は約 12.9B 相当に抑制
パラメータ効率: DeepSeek-V3 は総 671B パラメータだが活性化パラメータは 37B。デンスモデルなら 37B 相当の計算量で 671B の知識容量を活用できる
スケーラビリティ: エキスパート数を増やすだけでモデル容量を拡大可能。Google の Switch Transformer は 1.6T パラメータ（2,048 エキスパート）を実現
学習効率: 同じ計算予算でデンスモデルより 2-4 倍速く収束する傾向がある（Google Brain の研究、2022年）
推論レイテンシ: 活性化パラメータがデンスモデルより少ないため、同等精度のデンスモデルと比較してトークン生成速度が 1.5-3 倍高速
メモリ要件: 全エキスパートの重みを VRAM に保持する必要があるため、総メモリ使用量はデンスモデルより大きい。Mixtral 8x7B は FP16 で約 90GB VRAM が必要
エキスパート特化: 学習が進むとエキスパートが特定のドメインや言語に自然と特化する傾向がある。Mixtral では数学・コード・多言語処理で異なるエキスパートが活性化する
Fine-grained MoE: DeepSeek-V2/V3 は 1 エキスパートを複数の小さなサブエキスパートに分割する Fine-grained MoE を採用し、ルーティング精度を向上

主要 MoE モデル比較

モデル	総パラメータ	活性化パラメータ	エキスパート数	Top-K	リリース	特徴
Mixtral 8x7B	46.7B

比較項目	デンスモデル（LLaMA 3 70B）	MoE モデル（Mixtral 8x7B）
総パラメータ	70B	46.7B
推論活性化	70B（全パラメータ）	12.9B（Top-2 エキスパート）
推論速度	基準	約 2-3 倍高速
VRAM 使用量	FP16 で約 140GB	FP16 で約 90GB（全エキスパート保持）
学習収束	基準	2-4 倍速い収束
ベンチマーク精度	MMLU 79.5	MMLU 70.6（パラメータ効率では優位）

メニュー

Mixture-of-Experts（MoE）アーキテクチャ（ミクスチャーオブエキスパーツアーキテクチャ）

メニュー

Mixture-of-Experts（MoE）アーキテクチャ（ミクスチャーオブエキスパーツアーキテクチャ）

この用語に関連するコンテンツ

概要

主な特徴・仕組み

主要 MoE モデル比較

デンスモデルとの違い

MoE モデルの選び方・注意点

よくある質問（FAQ）

まとめ

関連用語