Post-Normアーキテクチャを超深層Transformer(1,000層以上)でも安定して学習させるための正規化手法。残差接続にスケーリング係数αを導入し、Xavier初期化をβでスケーリングすることで勾配の爆発を防ぐ。Microsoft Research(Wang et al., 2022)が提案。
DeepNorm は、Microsoft Research が2022年の論文「DeepNet: Scaling Transformers to 1,000 Layers」で提案した正規化手法である。Post-Normアーキテクチャの最終性能優位性を維持しつつ、1,000層を超える超深層Transformerの安定学習を実現することを目的としている。
Pre-NormとPost-Normには以下のトレードオフがある:
| 特性 | Pre-Norm | Post-Norm |
|---|---|---|
| 学習安定性 | 高い | 低い(深層で発散) |
| 最終性能 | やや低い | やや高い |
| 適用可能な深さ | 数千層まで | ~100層が限界 |
| 表現力 | 層が深いと崩壊傾向 | 各層が独立に機能 |
DeepNormは、Post-Normの性能優位を維持しつつ、Pre-Normと同等以上の安定性を達成することを目指す。
DeepNormは2つの修正をPost-Normに加える。
通常のPost-Norm: output = LayerNorm(x + SubLayer(x))
DeepNorm: output = LayerNorm(x × α + SubLayer(x))
ここで α > 1 のスケーリング係数を残差接続に乗算する。これにより残差パスの信号が増幅され、サブレイヤーの出力による摂動の相対的影響が低減する。
サブレイヤー(Self-Attention、FFN)のパラメータ初期化を β でスケーリングする。β < 1 とすることで、学習初期のサブレイヤー出力が小さくなり、勾配の爆発を防ぐ。
| パラメータ | 計算式 | 層数N=100の値 | 層数N=1000の値 |
|---|---|---|---|
| α | (2N)^(1/4) | ≈ 3.76 | ≈ 6.69 |
| β | (8N)^(-1/4) | ≈ 0.53 | ≈ 0.30 |
層数が増えるほど α が大きく(残差を強化)、β が小さく(初期出力を抑制)なる。
Wang et al.の論文では、以下の結果が報告されている。
| 設定 | Post-Norm | Pre-Norm | DeepNorm |
|---|---|---|---|
| 100層(標準) | 学習可能 | 学習可能 | 学習可能 |
| 200層 | 発散 | 学習可能 | 学習可能 |
| 500層 | 発散 | 学習可能(性能低下) | 学習可能 |
| 1,000層 | 発散 | 表現崩壊 | 学習可能・高性能 |
1,000層のDeepNormモデルは、同じ総パラメータ数のPre-Normモデルを上回る性能を達成した。
Pre-Normが深層で性能劣化する原因は**表現崩壊(Representation Collapse)**である。
| 層数 | Pre-Normの残差出力 | 各層のサブレイヤー出力 | 比率 |
|---|---|---|---|
| 12層 | 適度 | 有意 | バランス良い |
| 100層 | 非常に大きい | 相対的に小さい | 不均衡 |
| 1000層 | 極端に大きい | 無視できるほど小さい | 崩壊 |
Pre-Normでは残差接続が正規化を迂回するため、各層の寄与が累積的に大きくなる。深層では新しい層のサブレイヤー出力が残差の累積に対して相対的に無視されるようになり、事実上の恒等関数に退化する。
DeepNormは α によるスケーリングと β による初期化制御で、このバランスを最適に保つ。
| 側面 | 詳細 |
|---|---|
| 学術的影響 | Post-Norm復活の可能性を示した重要な研究 |
| 産業的採用 | 限定的(実装の複雑さ vs Pre-Normの十分な性能) |
| DeepSeek V2/V3 | DeepNormの要素を部分的に採用 |
| 一般的なLLM | Pre-RMSNormが依然として主流 |
DeepNormの理論的貢献は大きいが、実用面ではPre-Norm + RMSNormの組み合わせが十分に安定しているため、大規模な採用には至っていない。ただし、将来的にモデルが数千層規模に拡大する場合、DeepNormの設計思想が重要になる可能性がある。
現時点では不要。LLaMA 3.1 (405B) でも80層程度であり、Pre-Norm + RMSNormで十分に安定して学習できる。DeepNormのメリットが発揮されるのは数百層以上のモデルであり、現在の産業用LLMの層数を大きく超えている。
層数Nから一意に計算できるため、ハイパーパラメータチューニングは不要。α = (2N)^(1/4)、β = (8N)^(-1/4) の計算式に従えばよい。
理論的には可能だが、DeepNormはPost-Normの安定化を目的としているため、Pre-Normと組み合わせる動機が弱い。Pre-Normはすでに深層で安定しているため、αスケーリングの追加は冗長になる。