DeepNorm（深層正規化）とは？（ディープノーム）わかりやすく解説

Q: DeepNorm（深層正規化）とは？

Post-Normアーキテクチャを超深層Transformer（1,000層以上）でも安定して学習させるための正規化手法。残差接続にスケーリング係数αを導入し、Xavier初期化をβでスケーリングすることで勾配の爆発を防ぐ。Microsoft Research（Wang et al., 2022）が提案。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

DeepNorm（深層正規化）とは？（ディープノーム）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

DeepNormが解決する問題

Pre-NormとPost-Normには以下のトレードオフがある：

特性	Pre-Norm	Post-Norm
学習安定性	高い	低い（深層で発散）
最終性能	やや低い	やや高い
適用可能な深さ	数千層まで	~100層が限界
表現力	層が深いと崩壊傾向	各層が独立に機能

DeepNormは、Post-Normの性能優位を維持しつつ、Pre-Normと同等以上の安定性を達成することを目指す。

DeepNormの仕組み

DeepNormは2つの修正をPost-Normに加える。

修正1: 残差接続のスケーリング

通常のPost-Norm: output = LayerNorm(x + SubLayer(x))

DeepNorm: output = LayerNorm(x × α + SubLayer(x))

ここで α > 1 のスケーリング係数を残差接続に乗算する。これにより残差パスの信号が増幅され、サブレイヤーの出力による摂動の相対的影響が低減する。

修正2: Xavier初期化のスケーリング

サブレイヤー（Self-Attention、FFN）のパラメータ初期化を β でスケーリングする。β < 1 とすることで、学習初期のサブレイヤー出力が小さくなり、勾配の爆発を防ぐ。

α と β の設定

パラメータ	計算式	層数N=100の値	層数N=1000の値
α	(2N)^(1/4)	≈ 3.76	≈ 6.69
β	(8N)^(-1/4)	≈ 0.53	≈ 0.30

層数が増えるほど α が大きく（残差を強化）、β が小さく（初期出力を抑制）なる。

実験結果

Wang et al.の論文では、以下の結果が報告されている。

設定	Post-Norm	Pre-Norm	DeepNorm
100層（標準）	学習可能	学習可能	学習可能
200層	発散	学習可能	学習可能
500層	発散	学習可能（性能低下）	学習可能
1,000層	発散	表現崩壊	学習可能・高性能

1,000層のDeepNormモデルは、同じ総パラメータ数のPre-Normモデルを上回る性能を達成した。

Pre-Normの表現崩壊問題

Pre-Normが深層で性能劣化する原因は**表現崩壊（Representation Collapse）**である。

層数	Pre-Normの残差出力	各層のサブレイヤー出力	比率
12層	適度	有意	バランス良い
100層	非常に大きい	相対的に小さい	不均衡
1000層	極端に大きい	無視できるほど小さい	崩壊

Pre-Normでは残差接続が正規化を迂回するため、各層の寄与が累積的に大きくなる。深層では新しい層のサブレイヤー出力が残差の累積に対して相対的に無視されるようになり、事実上の恒等関数に退化する。

DeepNormは α によるスケーリングと β による初期化制御で、このバランスを最適に保つ。

実用的な影響と採用状況

側面	詳細
学術的影響	Post-Norm復活の可能性を示した重要な研究
産業的採用	限定的（実装の複雑さ vs Pre-Normの十分な性能）
DeepSeek V2/V3	DeepNormの要素を部分的に採用
一般的なLLM	Pre-RMSNormが依然として主流

DeepNormの理論的貢献は大きいが、実用面ではPre-Norm + RMSNormの組み合わせが十分に安定しているため、大規模な採用には至っていない。ただし、将来的にモデルが数千層規模に拡大する場合、DeepNormの設計思想が重要になる可能性がある。

FAQ

Q1: DeepNormは現在のLLMに使うべき？

現時点では不要。LLaMA 3.1 (405B) でも80層程度であり、Pre-Norm + RMSNormで十分に安定して学習できる。DeepNormのメリットが発揮されるのは数百層以上のモデルであり、現在の産業用LLMの層数を大きく超えている。

Q2: αとβの値は自動で決まる？

層数Nから一意に計算できるため、ハイパーパラメータチューニングは不要。α = (2N)^(1/4)、β = (8N)^(-1/4) の計算式に従えばよい。

Q3: DeepNormとPre-Normを組み合わせることは可能？

理論的には可能だが、DeepNormはPost-Normの安定化を目的としているため、Pre-Normと組み合わせる動機が弱い。Pre-Normはすでに深層で安定しているため、αスケーリングの追加は冗長になる。

メニュー

DeepNorm（深層正規化）（ディープノーム）

この用語に関連するコンテンツ

メニュー

DeepNorm（深層正規化）（ディープノーム）

この用語に関連するコンテンツ