Pre-Norm vs Post-Norm アーキテクチャとは？（プレノームブイエスポストノーム アーキテクチャ）わかりやすく解説

Q: Pre-Norm vs Post-Norm アーキテクチャとは？

Pre-Norm と Post-Norm は、Transformer アーキテクチャにおける正規化レイヤー（LayerNorm / RMSNorm）の配置パターンを指す。Pre-Norm は残差接続の入力側に、Post-Norm は出力側に正規化を配置する。Pre-Norm は学習の安定性に優れ、Post-Norm は最終的な精度でわずかに優れるとされ、2026年現在の主要 LLM の大半は Pre-Norm を採用している。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Pre-Norm vs Post-Norm アーキテクチャとは？（プレノームブイエスポストノームアーキテクチャ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

技術的詳細

残差パスの勾配伝播

Pre-Norm と Post-Norm の学習安定性の差は、逆伝播時の勾配伝播経路の違いに起因する。

Post-Norm の勾配伝播:

Post-Norm では、残差パスが LayerNorm を通過するため、勾配は LayerNorm のヤコビアン（微分行列）を経由して伝播する。LayerNorm のヤコビアンは入力に依存する非線形変換であり、深いネットワークでは層を経るごとに勾配が増幅または減衰する「勾配爆発/消失」が起きやすい。

N層の Post-Norm Transformer では、入力からの勾配は N 個の LayerNorm ヤコビアンの積を含むため、N が大きいほど勾配の分散が指数的に増大する。

Pre-Norm の勾配伝播:

Pre-Norm では、残差パスが LayerNorm を通過しない（x がそのまま加算される）。したがって、逆伝播時の勾配は残差パスを通じて直接伝播でき、LayerNorm のヤコビアンの影響を受けない。これは ResNet の残差学習と同じメカニズムであり、理論的には任意の深さで勾配が安定する。

特性	Pre-Norm	Post-Norm
残差パスの勾配	直接伝播（LayerNorm を経由しない）	LayerNorm のヤコビアン経由
勾配安定性	高い（層数に依存しない）	低い（深くなるほど不安定）
学習率感度	低い（広い範囲で安定）	高い（慎重な設定が必要）
ウォームアップ必要性	少ない	多い（特に深いモデル）

評価軸	Pre-Norm	Post-Norm	備考
学習安定性	◎	△〜×	深いモデルで差が顕著
最終精度（同一層数）	○	◎	0.3〜1.0 perplexity 差
収束速度	◎	○	Pre-Norm が速い
学習率の許容範囲	◎	△	Post-Norm は感度が高い
ウォームアップの必要性	低	高	Post-Norm は長いウォームアップ必要
有効深度	△	◎	Post-Norm は全層を均等活用
実装の容易さ	◎	◎	同程度
深いモデル（>48層）	◎	×（DeepNorm で ◎）

モデル	公開年	配置	正規化手法	層数	備考
Transformer（オリジナル）	2017	Post-Norm	LayerNorm	6	論文のデフォルト
BERT	2018	Post-Norm	LayerNorm	12/24	エンコーダモデル
GPT-2	2019	Pre-Norm	LayerNorm	12〜48	Pre-Norm 先駆
T5	2019	Pre-Norm	LayerNorm	12〜24	エンコーダ・デコーダ
GPT-3	2020	Pre-Norm	LayerNorm	96	175B パラメータ
PaLM	2022	Pre-Norm	LayerNorm	118	並列 Attention+FFN
GLM-130B	2022	Post-Norm	LayerNorm + DeepNorm	70	DeepNorm で安定化
LLaMA	2023	Pre-Norm	RMSNorm	32〜80	現在のデファクト
Mistral	2023	Pre-Norm	RMSNorm	32	Sliding Window Attention
Gemma 2	2024	Pre-Norm + Post-Norm 交互	RMSNorm	26〜42	ハイブリッド配置
GPT-4（推定）	2023	Pre-Norm（推定）	非公開	非公開	公式未発表
Claude（推定）	2024	Pre-Norm（推定）	非公開	非公開	公式未発表

# Pre-Norm Transformer の典型的な構造
class PreNormTransformer(nn.Module):
    def __init__(self, d_model, n_layers, n_heads):
        super().__init__()
        self.layers = nn.ModuleList([
            PreNormBlock(d_model, n_heads) for _ in range(n_layers)
        ])
        self.final_norm = RMSNorm(d_model)  # 必須
        self.lm_head = nn.Linear(d_model, vocab_size)

    def forward(self, x):
        for layer in self.layers:
            x = layer(x)
        x = self.final_norm(x)  # Pre-Norm では必須
        return self.lm_head(x)

メニュー

Pre-Norm vs Post-Norm アーキテクチャ（プレノームブイエスポストノームアーキテクチャ）

メニュー

Pre-Norm vs Post-Norm アーキテクチャ（プレノームブイエスポストノームアーキテクチャ）

この用語に関連するコンテンツ

概要

技術的詳細

残差パスの勾配伝播

出力スケールの分析

精度と安定性のトレードオフ

Post-Norm が精度で優れる理由

Pre-Norm が安定性で優れる理由

主要モデルの採用パターン

Gemma 2 のハイブリッド配置

実装上の考慮事項

最終層の正規化

テンソル並列との相互作用

FAQ

Q: 新規 LLM を設計する場合、Pre-Norm と Post-Norm のどちらを選ぶべきか？

Q: Pre-Norm モデルの「有効深度」問題はどの程度深刻か？

Q: 学習途中で Pre-Norm から Post-Norm に（またはその逆に）切り替えられるか？

Q: Gemma 2 のハイブリッド配置（Pre-Norm + Post-Norm 交互）は今後主流になるか？

関連用語