LLM重み初期化とは？（エルエルエムオモミショキカ）わかりやすく解説

LLM（大規模言語モデル）の学習開始時にニューラルネットワークの各パラメータ（重み）に与える初期値の設定方法。適切な初期化により勾配消失・爆発を防ぎ、学習の収束速度と最終精度に大きく影響する。

LLM重み初期化とは？（エルエルエムオモミショキカ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

主な初期化手法

ゼロ初期化: 全パラメータを0に設定。対称性が崩れず学習が進まないため、バイアス項以外では使用禁止
ランダム初期化: 正規分布 N(0, σ²) や一様分布 U(-a, a) からサンプリング。σの設定が鍵
Xavier初期化（Glorot初期化）: Var(W) = 2/(n_in + n_out)。シグモイド・tanh向け
Kaiming初期化（He初期化）: Var(W) = 2/n_in。ReLU系活性化関数向け
直交初期化（Orthogonal）: 重み行列を直交行列で初期化。RNNで勾配保存に有効
切断正規分布: 標準偏差の2倍を超える値を切断。極端な初期値を防止
μP（Maximal Update Parameterization）: 小規模モデルから大規模モデルへハイパーパラメータを転移可能にする初期化・学習率スケーリング手法。Microsoft Research が提案

手法	分散の計算式	推奨活性化関数	採用モデル例
Xavier (Glorot)	Var = 2/(n_in + n_out)	Sigmoid, Tanh, GELU	BERT, T5
Kaiming (He)	Var = 2/n_in	ReLU, Leaky ReLU	ResNet, 一部CNN