LLM重み初期化とは？（エルエルエムオモミショキカ）わかりやすく解説

Q: LLM重み初期化とは？

LLM（大規模言語モデル）の学習開始時にニューラルネットワークの各層パラメータへ初期値を設定する戦略の総称。Xavier・Kaiming・直交・ゼロ初期化など複数の手法があり、選択を誤ると勾配消失・爆発が起きて数十億パラメータ規模のモデルが収束しない。2026年現在の主要LLMでは層種別に最適な初期化を組み合わせるハイブリッド方式が標準となっている。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

LLM重み初期化とは？（エルエルエムオモミショキカ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

主要初期化手法の比較

初期化手法	分散スケーリング	対応活性化関数	主な採用モデル	PyTorch API
Xavier (Glorot) Uniform	Var = 2/(fan_in+fan_out)	Sigmoid, Tanh	初期 Transformer, BERT	`torch.nn.init.xavier_uniform_`
Xavier (Glorot) Normal	Var = 2/(fan_in+fan_out)	Sigmoid, Tanh	Transformer-XL	`torch.nn.init.xavier_normal_`
Kaiming (He) Uniform	Var = 2/fan_in	ReLU, GELU, SiLU	GPT-NeoX, BLOOM	`torch.nn.init.kaiming_uniform_`

# GPT-2 スタイル初期化（PyTorch 擬似コード）
import torch.nn as nn
import torch.nn.init as init

def init_gpt2(module, n_layers):
    if isinstance(module, nn.Linear):
        init.trunc_normal_(module.weight, std=0.02)
        if module.bias is not None:
            init.zeros_(module.bias)
    if isinstance(module, nn.Embedding):
        init.trunc_normal_(module.weight, std=0.02)
    # 残差出力射影のスケーリング
    for name, p in module.named_parameters():
        if name.endswith('c_proj.weight'):
            init.trunc_normal_(p, std=0.02 / (2 * n_layers) ** 0.5)

初期化手法	1K ステップ後 Loss	10K ステップ後 Loss	50K ステップ後 Loss	発散率
Xavier Uniform	8.42	3.91	2.85	0%
Kaiming Normal	8.15	3.72	2.78	0%
直交初期化	7.98	3.65	2.76	0%
ゼロ初期化（全層）	発散	—	—	100%
GPT-2 式 Truncated Normal	8.21	3.78	2.80	0%
Small Init（DeepSeek）	7.85	3.58	2.72	0%
ランダム一様 [−1, 1]	12.50	発散	—	85%

import torch
import torch.nn as nn
import torch.nn.init as init

class TransformerBlock(nn.Module):
    def __init__(self, d_model=4096, n_heads=32, n_layers=80):
        super().__init__()
        self.attn_qkv = nn.Linear(d_model, 3 * d_model, bias=False)
        self.attn_out = nn.Linear(d_model, d_model, bias=False)
        self.ffn_gate = nn.Linear(d_model, 4 * d_model, bias=False)
        self.ffn_down = nn.Linear(4 * d_model, d_model, bias=False)
        self._init_weights(n_layers)

    def _init_weights(self, n_layers):
        # Q/K/V: Kaiming Normal (GELU/SiLU 対応)
        init.kaiming_normal_(self.attn_qkv.weight, mode='fan_in', nonlinearity='relu')
        # Attention 出力: 残差スケーリング
        init.normal_(self.attn_out.weight, std=0.02 / (2 * n_layers) ** 0.5)
        # FFN Gate: Kaiming Normal
        init.kaiming_normal_(self.ffn_gate.weight, mode='fan_in', nonlinearity='relu')
        # FFN Down: 残差スケーリング
        init.normal_(self.ffn_down.weight, std=0.02 / (2 * n_layers) ** 0.5)

メニュー

LLM重み初期化（エルエルエムオモミショキカ）

メニュー

LLM重み初期化（エルエルエムオモミショキカ）

この用語に関連するコンテンツ

LLM重み初期化とは

主要初期化手法の比較

GPT-2/Llama/Mistral の実装パターン

GPT-2 方式（Truncated Normal + Residual Scaling）

Llama 3 方式（Kaiming Normal + RMSNorm）

Mistral 方式（Sliding Window Attention 対応）

初期化法による収束速度の比較

torch.nn.init 実践ガイド

初期化デバッグの実践テクニック

2026年の最新動向

μP と Spectral Initialization

Zero Redundancy Init（ZeRO-Init）

よくある質問（FAQ）

まとめ

関連用語