Layer Normalization（LayerNorm）とは？（レイヤーノーマライゼーション）わかりやすく解説

Q: Layer Normalization（LayerNorm）とは？

Layer Normalization（LayerNorm）は、ニューラルネットワークの各層で特徴量をサンプル単位に正規化する手法であり、Transformer ベースの大規模言語モデル（LLM）で事実上の標準正規化として広く採用されている。Batch Normalization がバッチ方向に統計量を計算するのに対し、LayerNorm は単一サンプル内の全特徴次元にわたって平均・分散を計算するため、バッチサイズに依存せず系列長が変動する自然言語処理タスクに適している。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Layer Normalization（LayerNorm）とは？（レイヤーノーマライゼーション）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

Layer Normalization（LayerNorm）は、2016年に Jimmy Lei Ba らが提案した正規化手法であり、Transformer アーキテクチャにおける最も基本的な正規化レイヤーである。バッチ方向ではなく特徴次元方向に平均と分散を計算することで、ミニバッチサイズや系列長に依存しない安定した学習を実現する。GPT・BERT・T5 をはじめとする主要 LLM のほぼ全てが LayerNorm またはその変種を採用しており、LLM の学習安定性を支える中核技術である。

概要

LayerNorm の核心は「各サンプルの各層出力を、そのサンプル自身の統計量で正規化する」点にある。Batch Normalization（BatchNorm）は 2015年に Ioffe & Szegedy が提案し画像認識で革命的な成果を上げたが、バッチ内の全サンプルから平均・分散を計算するため、バッチサイズが小さい場合や系列長が可変の場合に統計量が不安定になるという問題があった。LayerNorm はこの問題を解決するために設計された。

自然言語処理では入力系列長がサンプルごとに異なり、パディングの影響でバッチ統計量が歪むため BatchNorm は不適切である。LayerNorm は個々のサンプル・個々のタイムステップについて独立に正規化を行うため、系列長の変動やバッチサイズの変更に対してロバストである。

2017年の Transformer 論文「Attention Is All You Need」で採用されて以降、LayerNorm は自然言語処理における事実上の標準正規化手法となった。オリジナル Transformer では Multi-Head Attention および Feed-Forward Network の後に LayerNorm を適用する Post-Norm 配置が採用されていたが、後続研究で Pre-Norm 配置（LayerNorm を先に適用）の方が学習が安定することが示され、GPT-2 以降の多くのモデルは Pre-Norm を採用している。

技術的詳細と数式

LayerNorm の計算は以下の手順で行われる。入力ベクトル x = (x₁, x₂, ..., x_H) に対して、H は隠れ層の次元数である。

ステップ1: 平均の計算

μ = (1/H) × Σᵢ xᵢ

ステップ2: 分散の計算

σ² = (1/H) × Σᵢ (xᵢ − μ)²

ステップ3: 正規化

x̂ᵢ = (xᵢ − μ) / √(σ² + ε)

ステップ4: アフィン変換

yᵢ = γ × x̂ᵢ + β

ここで γ（スケール）と β（シフト）は学習可能なパラメータ、ε は数値安定性のための微小定数（通常 1e-5 または 1e-6）である。

計算コストの分析

LayerNorm の計算量は O(H) であり、隠れ層の次元数に線形比例する。LLM の典型的な隠れ次元（H = 4096〜12288）では、1トークン・1層あたり約 3H 回の浮動小数点演算が必要である。Transformer 全体の計算量に対する LayerNorm の割合は通常 1〜3% 程度だが、推論時のレイテンシではメモリアクセスがボトルネックとなるため、実測では 5〜10% の時間を占めることがある。

パラメータ	説明	典型的な値
H（隠れ次元）	正規化対象の特徴次元数	768〜12288
ε（イプシロン）	ゼロ除算防止の微小値	1e-5〜1e-6
γ（ガンマ）	学習可能スケールパラメータ

手法	正規化方向	バッチ依存	系列長依存	学習パラメータ	計算コスト	主な用途
BatchNorm	バッチ方向	あり	なし	2H	O(BH)	CNN（画像）
LayerNorm	特徴方向	なし	なし	2H	O(H)	Transformer/LLM
InstanceNorm	チャネル内空間方向	なし	なし	2C	O(HW)	スタイル変換
GroupNorm	グループ内特徴方向	なし	なし	2C	O(H)	小バッチ CNN
RMSNorm	特徴方向（平均なし）	なし	なし	H	O(H)	最新 LLM

モデル	パラメータ数	LayerNorm 配置	備考
BERT（2018）	110M-340M	Post-Norm	オリジナル Transformer 配置
GPT-2（2019）	117M-1.5B	Pre-Norm	Pre-Norm の先駆的採用
T5（2019）	60M-11B	Pre-Norm	エンコーダ・デコーダ両方
GPT-3（2020）	175B	Pre-Norm	大規模モデルでの安定学習に貢献
PaLM（2022）	540B	Pre-Norm	並列配置と組み合わせ
BLOOM（2022）	176B	Pre-Norm	多言語対応 LLM

import torch
import torch.nn as nn

# 隠れ次元 768 の LayerNorm
layer_norm = nn.LayerNorm(768, eps=1e-5)

# 入力: (batch_size, seq_len, hidden_dim)
x = torch.randn(32, 512, 768)
output = layer_norm(x)

class TransformerBlock(nn.Module):
    def __init__(self, d_model, n_heads):
        super().__init__()
        self.ln1 = nn.LayerNorm(d_model)
        self.attn = MultiHeadAttention(d_model, n_heads)
        self.ln2 = nn.LayerNorm(d_model)
        self.ffn = FeedForwardNetwork(d_model)

    def forward(self, x):
        x = x + self.attn(self.ln1(x))
        x = x + self.ffn(self.ln2(x))
        return x

メニュー

Layer Normalization（LayerNorm）（レイヤーノーマライゼーション）

メニュー

Layer Normalization（LayerNorm）（レイヤーノーマライゼーション）

この用語に関連するコンテンツ

概要

技術的詳細と数式

計算コストの分析

実装上の注意点

他の正規化手法との比較

LayerNorm のメリット

LayerNorm のデメリット

採用モデルと実装例

PyTorch での実装例

最新の研究動向

FAQ

Q: LayerNorm と BatchNorm はどのように使い分けるべきか？

Q: LayerNorm の ε（イプシロン）はどの値に設定すべきか？

Q: Pre-Norm と Post-Norm のどちらが優れているか？

Q: なぜ最近の LLM は LayerNorm ではなく RMSNorm を使うのか？

関連用語