Transformerブロック内での正規化層(LayerNorm/RMSNorm)の配置位置を指す設計パターン。Post-Normは元祖Transformerで採用された「サブレイヤー後に正規化」する方式、Pre-Normは「サブレイヤー前に正規化」する方式。GPT-2以降の大規模LLMではPre-Normが標準。
Transformerブロックは Self-Attention と Feed-Forward Network(FFN)の2つのサブレイヤーと、正規化層(LayerNorm/RMSNorm)および残差接続(Residual Connection)で構成される。正規化層をサブレイヤーの前に置くか後に置くかという設計選択が、モデルの学習安定性と最終性能に大きな影響を与える。
x → Self-Attention → Add(x) → LayerNorm → FFN → Add → LayerNorm → 出力
残差接続の後に正規化を行う。Vaswani et al.(2017)の元祖Transformerで採用された方式。
x → LayerNorm → Self-Attention → Add(x) → LayerNorm → FFN → Add → 出力
残差接続の前に正規化を行う。GPT-2(Radford et al., 2019)で採用され、以降の大規模LLMで標準となった。
Pre-NormとPost-Normの最も重要な違いは、残差接続を通じた勾配の流れにある。
| 特性 | Post-Norm | Pre-Norm |
|---|---|---|
| 残差パス | LayerNormを通過 | LayerNormを迂回(直結) |
| 勾配の減衰 | 層が深いほど減衰 | 層数に依存しない |
| 学習安定性 | 不安定(要ウォームアップ) | 安定 |
| 最大学習率 | 小さい | 大きく設定可能 |
| 学習率ウォームアップ | 必須 | 不要(効果は薄い) |
Post-Normでは残差接続の出力がLayerNormを通過するため、逆伝播時の勾配もLayerNormのヤコビアンを経由する。これにより:
Pre-Normでは残差接続が正規化層を迂回するため、勾配は層の深さに関係なく直接的に伝播する。これはResNetの残差接続と同じ原理であり、数百層のモデルでも安定した学習が可能になる。
| 観点 | Post-Norm | Pre-Norm |
|---|---|---|
| 最終性能(同一条件) | やや高い傾向 | やや低い傾向 |
| 学習の安定性 | 低い | 高い |
| 深いモデルへの適用 | 困難(特殊な初期化が必要) | 容易 |
| 総合的な実用性 | 中規模まで | 大規模に最適 |
Post-Normは適切なウォームアップと初期化を用いれば最終性能でわずかに上回るという報告がある。しかし、大規模LLMの学習では安定性が最優先されるため、Pre-Normが圧倒的に選ばれている。
| モデル | 配置 | 正規化手法 | 備考 |
|---|---|---|---|
| 元祖Transformer | Post-Norm | LayerNorm | 原論文の設計 |
| BERT | Post-Norm | LayerNorm | エンコーダのみ |
| GPT-2/3 | Pre-Norm | LayerNorm | Pre-Norm普及の契機 |
| LLaMA 1/2/3 | Pre-Norm | RMSNorm | Pre-RMSNorm |
| Qwen 2/2.5 | Pre-Norm | RMSNorm | Pre-RMSNorm |
| Gemma 1/2 |
Pre-Norm/Post-Normの二択に加え、いくつかの変種が研究されている。
| 変種 | 構造 | 特徴 |
|---|---|---|
| Sandwich-Norm | Norm → SubLayer → Norm | サブレイヤーの前後両方で正規化 |
| DeepNorm | Post-Norm + 残差スケーリング | 1000層超のPost-Normを安定化 |
| QK-Norm | Attention内のQ/Kを正規化 | Attentionスコアの安定化 |
Pre-Normでは残差接続がLayerNormを迂回するため、各層の出力が累積的に大きくなる「表現崩壊(Representation Collapse)」が報告されている。これに対してはDeepNormやPost-Norm回帰の研究が進んでいる。
BERTは12-24層と比較的浅いモデルであり、Post-Normでも学習が安定する。当時(2018年)はPre-Normの利点がまだ広く認知されておらず、元祖Transformerの設計に従った。その後のPost-BERT研究ではPre-Norm版BERTの方が安定して学習できることが示されている。
DeepNorm(Microsoft, 2022)のように、Post-Normの最終性能優位性を活かしつつ安定性を確保する手法が研究されている。ただし実装の複雑さから、実用LLMでのPre-Norm優位は当面続くと見られる。
| Pre-Norm |
| RMSNorm |
| Pre-RMSNorm |
| PaLM | Pre-Norm | LayerNorm | Parallel FFN |
| DeepSeek V2/V3 | Pre-Norm | RMSNorm + DeepNorm要素 | ハイブリッド |