複数の学習済みLLMのパラメータを統合し、各モデルの長所を兼ね備えた単一モデルを生成する技術。追加学習なしで能力を合成できる点が最大の特徴である。
LLMモデルマージとは、複数のファインチューニング済み大規模言語モデルのパラメータ(重み)を数学的に統合し、1つの新しいモデルを生成する技術である。追加のGPU学習コストをかけずにモデルの能力を合成できるため、2024〜2026年にかけてオープンソースLLMコミュニティで急速に普及した。
モデルマージの核心は「タスクベクトル」の概念にある。ベースモデル(例: Llama 3.1 8B)からファインチューニング後モデルへの重み差分をタスクベクトルと呼び、このベクトルを操作することで能力の合成・除去が可能になる。
主要な操作は以下の通り:
| 手法 | 対応モデル数 | 計算コスト | 品質安定性 | 代表ツール |
|---|---|---|---|---|
| Linear (加重平均) | 2+ | 極低 | 中 | mergekit |
| SLERP | 2 | 低 | 高 | mergekit |
| TIES-Merging | 2+ | 中 | 高 | mergekit / merge-models |
| DARE | 2+ | 中 | 高 | mergekit |
| Frankenmerge (passthrough) | 2+ | 低 | 実験的 | mergekit |
| Model Breadcrumbs | 2+ | 中 | 高 | 研究実装 |
| DELLA | 2+ | 中 | 高 | mergekit (2025追加) |
Arcee AI が開発した mergekit は、LLMモデルマージのデファクトスタンダードである。2024年1月のリリース以降、GitHub Stars 6,000+を獲得し、Open LLM Leaderboard 上位モデルの多くが mergekit で生成されている。
# mergekit 設定例(SLERP)
slices:
- sources:
- model: meta-llama/Llama-3.1-8B-Instruct
layer_range: [0, 32]
- model: NousResearch/Hermes-3-Llama-3.1-8B
layer_range: [0, 32]
merge_method: slerp
base_model: meta-llama/Llama-3.1-8B
parameters:
t:
- filter: self_attn
value: [0, 0.5, 0.3, 0.7, 1]
- filter: mlp
value: [1, 0.5, 0.7, 0.3, 0]
- value: 0.5
dtype: bfloat16
2025年時点でHugging Face Hub上のモデルの推定15〜20%がマージモデルである。Open LLM Leaderboard v2 のトップ50のうち約30%がマージベースで、代表例は以下の通り:
Q1: モデルマージに必要なGPUスペックは?
A: マージ自体はCPUのみで実行可能である。7BモデルでRAM 32GB、70BモデルでRAM 128GB程度が目安。ただしbfloat16精度での保存にはGPU(VRAM 16GB以上)が推奨される。mergekit はCPU-only モードをサポートしており、--lazy-unpickle オプションでメモリ使用量を削減できる。
Q2: 異なるアーキテクチャのモデルをマージできる? A: 同一アーキテクチャ(hidden_size、num_attention_heads等が一致)のモデルのみマージ可能である。Llama 3.1同士、Mistral同士は可能だが、Llama × GPT-NeoXは不可。ただし2025年のCross-Architecture Merging研究(arXiv: 2502.xxxxx)では、アーキテクチャ変換レイヤーを介した異種マージの可能性が示されている。
Q3: マージモデルの商用利用は可能? A: 元モデルのライセンスに依存する。Apache 2.0やMITライセンスのモデル同士ならば商用利用可能だが、Llama系のコミュニティライセンスでは月間アクティブユーザー7億人制限がある。マージ前に各モデルのライセンスを確認し、最も制約の厳しいライセンスに従う必要がある。
Q4: マージ後のモデル評価はどう行う? A: Open LLM Leaderboard v2のベンチマーク(MMLU-Pro、IFEval、BBH、GPQA、MATH Lvl 5、MuSR)で定量評価するのが一般的である。lm-evaluation-harnessを使えばローカルで同等の評価が可能。マージ比率ごとに評価し、最適なパラメータを探索するのが実務的なアプローチ。