Layer Normalizationから平均の引き算を省略し、二乗平均平方根(RMS)のみで正規化する簡略化手法。Zhang & Sennrich(2019)が提案し、計算コストを約10-15%削減しつつLayerNormと同等の性能を維持する。LLaMA・Qwen・Gemmaなど現代の主要LLMで標準採用。
RMSNorm は、LayerNorm の計算を簡略化した正規化手法である。LayerNormが「平均を引いてから分散で割る」のに対し、RMSNormは平均の計算と引き算を省略し、二乗平均平方根(Root Mean Square)のみで除算する。この簡略化により計算コストが削減される一方、実験的にはLayerNormとほぼ同等の学習性能が確認されている。
| 手法 | 計算式 | 演算ステップ |
|---|---|---|
| LayerNorm | y = γ × (x - μ) / √(σ² + ε) + β | 平均→引算→分散→除算→スケール→シフト |
| RMSNorm | y = γ × x / √(RMS(x)² + ε) | RMS計算→除算→スケール |
ここで RMS(x) = √((1/H) Σ x_i²) である。
| LayerNormの要素 | RMSNormでの扱い |
|---|---|
| 平均 μ の計算 | 省略 |
| 平均の引き算 (x - μ) | 省略 |
| 分散 σ² の計算 | RMS²で代替 |
| スケールパラメータ γ | 保持 |
| シフトパラメータ β | 省略(多くの実装で) |
Zhang & Sennrich(2019)の分析によれば、LayerNormの成功要因は**再スケーリング(分散による除算)**にあり、**再センタリング(平均の引き算)**の寄与は限定的であるという知見に基づく。
直感的には、Transformerの隠れ層の活性化値はResidual Connectionにより層が深くなるほど累積的に大きくなる傾向がある。この「スケールの発散」を抑制することが正規化の主目的であり、平均のシフト補正は副次的な効果にすぎない。
RMSNormのLayerNormに対する計算効率改善は以下の通り:
| 項目 | LayerNorm | RMSNorm | 改善率 |
|---|---|---|---|
| 加算/減算 | 2H + 1 | H | ~50%削減 |
| 乗算/除算 | 2H + 1 | H + 1 | ~50%削減 |
| 学習パラメータ | 2H (γ, β) | H (γのみ) | 50%削減 |
| 総FLOPS | ~6H | ~3H | ~50%削減 |
| 壁時計時間 | 基準 | 10-15%高速 | メモリ帯域律速のため |
理論的なFLOPS削減は約50%だが、実際の壁時計時間ではメモリ帯域がボトルネックとなるため、改善は10-15%程度に留まる。ただし、Transformerの全層で繰り返し適用されるため、モデル全体では有意な高速化となる。
| モデル | 正規化手法 | パラメータ数 | 備考 |
|---|---|---|---|
| GPT-2/3 | LayerNorm | 1.5B-175B | Pre-Norm配置 |
| LLaMA / LLaMA 2/3 | RMSNorm | 7B-405B | Pre-RMSNorm |
| Qwen 2/2.5 | RMSNorm | 0.5B-72B | Pre-RMSNorm |
| Gemma / Gemma 2 | RMSNorm | 2B-27B | Pre-RMSNorm |
| Mistral / Mixtral | RMSNorm | 7B-8x22B | Pre-RMSNorm |
2023年以降にリリースされたオープンソースLLMのほぼ全てがRMSNormを採用しており、LayerNormからの移行は完了したと言える。
RMSNormの除算 x / RMS(x) は、RMS(x)が非常に小さい場合に数値的に不安定になる。混合精度学習では以下の対策が必要:
PyTorch 2.0以降では torch.nn.RMSNorm が公式サポートされており、手動実装は不要。
ほとんどのベンチマークで性能差は0.1%未満であり、実用上の差はない。LLaMA論文(Touvron et al., 2023)では、RMSNormがLayerNormと同等の性能を達成しつつ学習速度が向上したと報告されている。
RMSNormの多くの実装ではβを省略する。これはTransformerのAttention層やFFN層にすでにバイアス項が含まれているため、正規化層のバイアスが冗長であるという経験的知見に基づく。LLaMAではFFN層のバイアスも省略している。
QK-Normalization(Query/Keyの正規化)やnGPT(normalized GPT)など、Attention内部の正規化手法が研究されている。RMSNormの置換というよりは、追加の正規化として併用される方向。
| Phi-3/3.5 |
| RMSNorm |
| 3.8B-14B |
| Pre-RMSNorm |
| GPT-4 | 非公開 | 非公開 | 非公開 |
| Claude | 非公開 | 非公開 | 非公開 |