Pre-Norm / Post-Norm アーキテクチャとは？（プリノームポストノーム）わかりやすく解説

Q: Pre-Norm / Post-Norm アーキテクチャとは？

Transformerブロック内での正規化層（LayerNorm/RMSNorm）の配置位置を指す設計パターン。Post-Normは元祖Transformerで採用された「サブレイヤー後に正規化」する方式、Pre-Normは「サブレイヤー前に正規化」する方式。GPT-2以降の大規模LLMではPre-Normが標準。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Pre-Norm / Post-Norm アーキテクチャとは？（プリノームポストノーム）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

2つの配置パターン

Post-Norm（元祖Transformer方式）

x → Self-Attention → Add(x) → LayerNorm → FFN → Add → LayerNorm → 出力

残差接続の後に正規化を行う。Vaswani et al.（2017）の元祖Transformerで採用された方式。

Pre-Norm（GPT-2以降の標準）

x → LayerNorm → Self-Attention → Add(x) → LayerNorm → FFN → Add → 出力

残差接続の前に正規化を行う。GPT-2（Radford et al., 2019）で採用され、以降の大規模LLMで標準となった。

勾配の流れの違い

Pre-NormとPost-Normの最も重要な違いは、残差接続を通じた勾配の流れにある。

特性	Post-Norm	Pre-Norm
残差パス	LayerNormを通過	LayerNormを迂回（直結）
勾配の減衰	層が深いほど減衰	層数に依存しない
学習安定性	不安定（要ウォームアップ）	安定
最大学習率	小さい	大きく設定可能
学習率ウォームアップ	必須	不要（効果は薄い）

Post-Normが不安定な理由

Post-Normでは残差接続の出力がLayerNormを通過するため、逆伝播時の勾配もLayerNormのヤコビアンを経由する。これにより：

層が深くなるほど勾配が指数的に減衰する可能性がある
学習初期に勾配が不安定になりやすい
学習率のウォームアップ（最初の数千ステップで学習率を線形に増加）が必須

Pre-Normが安定な理由

Pre-Normでは残差接続が正規化層を迂回するため、勾配は層の深さに関係なく直接的に伝播する。これはResNetの残差接続と同じ原理であり、数百層のモデルでも安定した学習が可能になる。

性能の比較

観点	Post-Norm	Pre-Norm
最終性能（同一条件）	やや高い傾向	やや低い傾向
学習の安定性	低い	高い
深いモデルへの適用	困難（特殊な初期化が必要）	容易
総合的な実用性	中規模まで	大規模に最適

Post-Normは適切なウォームアップと初期化を用いれば最終性能でわずかに上回るという報告がある。しかし、大規模LLMの学習では安定性が最優先されるため、Pre-Normが圧倒的に選ばれている。

主要モデルの採用状況

モデル	配置	正規化手法	備考
元祖Transformer	Post-Norm	LayerNorm	原論文の設計
BERT	Post-Norm	LayerNorm	エンコーダのみ
GPT-2/3	Pre-Norm	LayerNorm	Pre-Norm普及の契機
LLaMA 1/2/3	Pre-Norm	RMSNorm	Pre-RMSNorm
Qwen 2/2.5	Pre-Norm	RMSNorm	Pre-RMSNorm
Gemma 1/2

Sandwich-Norm と最新の変種

Pre-Norm/Post-Normの二択に加え、いくつかの変種が研究されている。

変種	構造	特徴
Sandwich-Norm	Norm → SubLayer → Norm	サブレイヤーの前後両方で正規化
DeepNorm	Post-Norm + 残差スケーリング	1000層超のPost-Normを安定化
QK-Norm	Attention内のQ/Kを正規化	Attentionスコアの安定化

FAQ

Q1: Pre-Normにデメリットはある？

Pre-Normでは残差接続がLayerNormを迂回するため、各層の出力が累積的に大きくなる「表現崩壊（Representation Collapse）」が報告されている。これに対してはDeepNormやPost-Norm回帰の研究が進んでいる。

Q2: BERTはなぜPost-Normなのか？

BERTは12-24層と比較的浅いモデルであり、Post-Normでも学習が安定する。当時（2018年）はPre-Normの利点がまだ広く認知されておらず、元祖Transformerの設計に従った。その後のPost-BERT研究ではPre-Norm版BERTの方が安定して学習できることが示されている。

Q3: 今後Post-Normが復活する可能性は？

DeepNorm（Microsoft, 2022）のように、Post-Normの最終性能優位性を活かしつつ安定性を確保する手法が研究されている。ただし実装の複雑さから、実用LLMでのPre-Norm優位は当面続くと見られる。

メニュー

Pre-Norm / Post-Norm アーキテクチャ（プリノームポストノーム）

メニュー

Pre-Norm / Post-Norm アーキテクチャ（プリノームポストノーム）

この用語に関連するコンテンツ