Google Brainが2021年に発表したMixture-of-Experts(MoE)アーキテクチャの大規模言語モデル。各トークンを1つのエキスパートにのみルーティングする「Switch Routing」により、計算コストを増やさずにモデルパラメータを最大1.6兆(1.6T)まで拡張した。現代MoEモデルの原型。
Switch Transformerは、Google Brainが2021年に発表したMixture-of-Experts(MoE)ベースの大規模言語モデルアーキテクチャである。各トークンを1つのエキスパートにのみルーティングする「Switch Routing」(Top-1ルーティング)を採用し、1.6兆パラメータの超大規模モデルを実現した。現代のMoEモデル(Mixtral・DeepSeek-V3・Grok-1等)の設計思想に大きな影響を与えた原型的な研究。
| 年 | モデル/論文 | エキスパート数 | ルーティング | パラメータ | 貢献 |
|---|---|---|---|---|---|
| 1991 | Jacobs et al. | 数個 | ゲーティング | 数千 | MoE概念の提唱 |
| 2017 | Shazeer et al. | 2,048 | Top-2 | 137B | NLP向けMoE実用化 |
| 2021 | Switch Transformer | 128 | Top-1 | 1.6T | Top-1簡略化・1T超スケーリング |
| 2024 | Mixtral 8x7B | 8 | Top-2 | 46.7B | オープンソースMoE普及 |
| 2024 | DeepSeek-V3 | 256 | Top-8 | 671B | Fine-grained MoE・FP8学習 |
Switch Transformerの各レイヤー構造:
Q1: なぜTop-1ルーティングがTop-2より良いのか? A: Top-2は2つのエキスパートに入力を送るため通信コストが2倍。Switch TransformerはTop-1で十分な性能が出ることを実証した。ただしDeepSeek-V3はTop-8に回帰しており、エキスパート数が多い場合はTop-K>1が有効という知見もある。
Q2: Switch Transformerは今でも使われている? A: 直接は使われていないが、その設計思想(スパースMoEのスケーリング則、ロードバランシング、BF16安定化)は全てのMoEモデルに継承されている。Mixtral・DeepSeek-V3・Grok-1は全てSwitch Transformerの子孫と言える。
Q3: MoEモデルはDenseモデルより常に優れている? A: 同じ計算予算ならMoEが有利(パラメータが多い分だけ知識を保持できる)。ただしメモリ使用量が大きいため、メモリ制約のある環境ではDenseモデルの方が現実的。エッジデバイスや個人利用ではDense(Llama等)、クラウド推論ではMoE(DeepSeek-V3等)が向く。