RMSNorm（Root Mean Square Normalization）とは？（アールエムエスノーム）わかりやすく解説

Q: RMSNorm（Root Mean Square Normalization）とは？

RMSNorm（Root Mean Square Layer Normalization）は、LayerNorm から平均の減算ステップを省略し、二乗平均平方根（RMS）のみで正規化を行う軽量な正規化手法である。2019年に Biao Zhang と Rico Sennrich が提案し、LLaMA・Mistral・Gemma・Qwen など 2023年以降の主要 LLM で標準採用されている。計算コストが LayerNorm より約 10〜30% 低く、性能は同等以上であることが実験的に確認されている。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

RMSNorm（Root Mean Square Normalization）とは？（アールエムエスノーム）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

技術的詳細と数式

RMSNorm の計算は以下の通りである。入力ベクトル x = (x₁, x₂, ..., x_H) に対して：

ステップ1: 二乗平均平方根（RMS）の計算

RMS(x) = √((1/H) × Σᵢ xᵢ²)

ステップ2: 正規化

x̂ᵢ = xᵢ / RMS(x)

ステップ3: スケーリング

yᵢ = γᵢ × x̂ᵢ

LayerNorm との決定的な違いは2点ある：

平均 μ の計算と減算が省略されている
シフトパラメータ β が存在しない（γ のみ）

計算コスト比較

操作	LayerNorm	RMSNorm	削減率
平均計算（Σxᵢ）	H回の加算 + 1回の除算	なし	-100%
平均減算（xᵢ-μ）	H回の減算	なし	-100%
二乗和計算（Σxᵢ²）	H回の乗算 + H回の加算	H回の乗算 + H回の加算

特性	LayerNorm	RMSNorm	BatchNorm	GroupNorm
正規化方向	特徴次元	特徴次元	バッチ方向	グループ内特徴
平均の減算	あり	なし	あり	あり
学習パラメータ	γ, β (2H)	γ (H)	γ, β (2C)	γ, β (2C)
推論時コスト	中	低	高（統計量保持）	中
バッチ依存	なし	なし	あり	なし
LLM での採用率（2026年）	中（レガシー）	高（新規標準）	ほぼなし	ほぼなし

モデル	公開年	パラメータ数	正規化手法	備考
LLaMA（Meta）	2023	7B-65B	RMSNorm	RMSNorm 普及の契機
LLaMA 2（Meta）	2023	7B-70B	RMSNorm
Mistral 7B	2023	7B	RMSNorm
Mixtral 8x7B	2024	46.7B	RMSNorm	MoE モデル
Gemma（Google）	2024	2B-7B	RMSNorm
Gemma 4（Google）	2025	4B-27B	RMSNorm	最新世代
Qwen 2.5（Alibaba）	2024	0.5B-72B	RMSNorm
Qwen 3（Alibaba）	2025	0.6B-235B	RMSNorm	MoE 含む
LLaMA 3（Meta）	2024	8B-405B	RMSNorm
Phi-3（Microsoft）	2024	3.8B-14B	RMSNorm	小規模高性能

import torch
import torch.nn as nn

# PyTorch 2.4+ の標準 RMSNorm
rms_norm = nn.RMSNorm(768, eps=1e-6)

# 手動実装（互換性のため）
class RMSNorm(nn.Module):
    def __init__(self, dim, eps=1e-6):
        super().__init__()
        self.eps = eps
        self.weight = nn.Parameter(torch.ones(dim))

    def forward(self, x):
        rms = torch.sqrt(torch.mean(x ** 2, dim=-1, keepdim=True) + self.eps)
        return x / rms * self.weight

メニュー

RMSNorm（Root Mean Square Normalization）（アールエムエスノーム）

メニュー

RMSNorm（Root Mean Square Normalization）（アールエムエスノーム）

この用語に関連するコンテンツ

概要

技術的詳細と数式

計算コスト比較

数値安定性

他の正規化手法との比較

RMSNorm のメリット

RMSNorm のデメリット

採用モデルと実装例

PyTorch での実装例

最新の研究動向

FAQ

Q: RMSNorm は LayerNorm の完全な上位互換か？

Q: 既存の LayerNorm モデルを RMSNorm に置き換えて再学習なしで使えるか？

Q: RMSNorm の ε（イプシロン）は LayerNorm と同じ値でよいか？

Q: Transformer の各層で RMSNorm を適用する位置は？

関連用語