Switch Transformerとは？（スイッチトランスフォーマー）わかりやすく解説

Q: Switch Transformerとは？

Google Brainが2021年に発表したMixture-of-Experts（MoE）アーキテクチャの大規模言語モデル。各トークンを1つのエキスパートにのみルーティングする「Switch Routing」により、計算コストを増やさずにモデルパラメータを最大1.6兆（1.6T）まで拡張した。現代MoEモデルの原型。

主な特徴

Top-1 Switch Routing: 各トークンを最も適したエキスパート1つにのみルーティング。従来のTop-2（2つのエキスパート）より通信コストが50%削減

1.6Tパラメータ: 最大1.6兆パラメータのスパースモデルを学習。当時としては世界最大規模

T5ベース: GoogleのT5（Text-to-Text Transfer Transformer）のFFN層をMoEに置き換えた設計

128エキスパート: 各MoEレイヤーに128個のエキスパート（FFN）を配置。各トークンは1個のみ使用

計算量一定でスケーリング: エキスパート数を増やしても各トークンの計算量（FLOPS）は増えない。パラメータ数だけが増加

Capacity Factor: 各エキスパートが処理できるトークン数の上限を設定。負荷分散とドロップの制御

ロードバランシング損失: エキスパート間の負荷を均等化する補助損失関数

BFloat16学習: BF16でのMoE学習安定化手法を確立。それ以前はFP32必須だった

MoEの歴史的位置づけ

年	モデル/論文	エキスパート数	ルーティング	パラメータ	貢献
1991	Jacobs et al.	数個	ゲーティング	数千	MoE概念の提唱
2017	Shazeer et al.	2,048	Top-2	137B	NLP向けMoE実用化
2021	Switch Transformer	128	Top-1	1.6T	Top-1簡略化・1T超スケーリング
2024	Mixtral 8x7B	8	Top-2	46.7B	オープンソースMoE普及
2024	DeepSeek-V3	256	Top-8	671B	Fine-grained MoE・FP8学習

アーキテクチャ詳細

Switch Transformerの各レイヤー構造：

Attention層: 標準的なMulti-Head Self-Attention（全トークンで共有）

Switch FFN層: トークンごとにゲーティングネットワークが最適なエキスパートFFNを1つ選択

ルーター（ゲーティング）: 線形変換 + Softmaxでエキスパートの選択確率を計算。最高確率のエキスパートに入力を送る

エキスパートFFN: 各エキスパートは標準的なFFN（2層MLP）。エキスパートごとに異なる重みを持つ

選び方・注意点

研究的意義: Switch Transformerは2021年の研究モデルであり、2026年時点で直接利用するケースは少ない。Mixtral・DeepSeek-V3等の後継MoEモデルの方が実用的

学習の不安定性: MoEの学習はDenseモデルより不安定。Switch TransformerはBF16学習の安定化手法を確立したが、それでもロードバランシングの調整が難しい

推論の課題: 1.6Tパラメータ全てをメモリに保持する必要がある（各トークンで使うのは1エキスパートだが、どのエキスパートが選ばれるか事前に分からないため）

Dense vs Sparse: 同じ計算量（FLOPS）なら、Sparseモデル（MoE）はDenseモデルより高性能。ただしメモリ使用量はパラメータ数に比例

後継研究: GShard・GLaM・ST-MoE等のGoogle内後継研究を経て、Gemini 1.5（推定MoE）に技術が統合

よくある質問（FAQ）

Q1: なぜTop-1ルーティングがTop-2より良いのか？ A: Top-2は2つのエキスパートに入力を送るため通信コストが2倍。Switch TransformerはTop-1で十分な性能が出ることを実証した。ただしDeepSeek-V3はTop-8に回帰しており、エキスパート数が多い場合はTop-K>1が有効という知見もある。

Q2: Switch Transformerは今でも使われている？ A: 直接は使われていないが、その設計思想（スパースMoEのスケーリング則、ロードバランシング、BF16安定化）は全てのMoEモデルに継承されている。Mixtral・DeepSeek-V3・Grok-1は全てSwitch Transformerの子孫と言える。

Q3: MoEモデルはDenseモデルより常に優れている？ A: 同じ計算予算ならMoEが有利（パラメータが多い分だけ知識を保持できる）。ただしメモリ使用量が大きいため、メモリ制約のある環境ではDenseモデルの方が現実的。エッジデバイスや個人利用ではDense（Llama等）、クラウド推論ではMoE（DeepSeek-V3等）が向く。

まとめ

Switch TransformerはGoogle Brain発のMoEアーキテクチャ、Top-1ルーティングで1.6Tパラメータを実現

計算量を増やさずにパラメータ数だけを拡張するスパースモデルの実用性を実証

現代のMoEモデル（Mixtral/DeepSeek-V3/Grok-1）の設計思想の原型

直接利用より研究的意義が大きいが、MoEを理解する上で必須の知識

メニュー

Switch Transformer（スイッチトランスフォーマー）

メニュー

Switch Transformer（スイッチトランスフォーマー）

この用語に関連するコンテンツ