TIES-Merging（タスクベクトル干渉除去マージ）とは？（タイズマージング）わかりやすく解説

Q: TIES-Merging（タスクベクトル干渉除去マージ）とは？

複数モデルのタスクベクトルから符号が矛盾するパラメータを除去し、残った一貫性のあるパラメータのみを統合するマージ手法。3モデル以上の同時マージに対応し、干渉を最小化する。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

TIES-Merging（タスクベクトル干渉除去マージ）とは？（タイズマージング）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

TIES-Mergingの3ステップ

Step 1: TRIM（低重要度パラメータの刈り込み）

各タスクベクトルにおいて、絶対値が小さいパラメータを上位 k% のみ残してゼロ化する。デフォルトの k は 20%（つまり80%のパラメータを除去）。これにより、モデル間の干渉要因となるノイズ的パラメータが除去される。

Step 2: Elect Sign（符号の多数決）

残ったパラメータについて、各位置の符号（正/負）を全モデルで多数決する。例えば3モデルマージで位置 i のパラメータが [+0.3, -0.1, +0.5] なら、多数決は「正」となり、-0.1 はゼロ化される。

Step 3: Merge（統合）

符号の一致したパラメータのみを加重平均で統合し、ベースモデルに加算する。

性能比較（3モデル同時マージ）

手法	MMLU	HellaSwag	ARC-Challenge	平均
Task Arithmetic (単純加算)	58.2	74.1	53.8	62.0
TIES-Merging (k=20)	61.7	77.3	57.2	65.4
TIES-Merging (k=30)	62.1	76.8	56.9	65.3
DARE-TIES	62.5	77.8	57.6	66.0

※ Llama 2 7B ベース、3つの特化モデルマージ時の比較

mergekit での設定

models:
  - model: meta-llama/Llama-3.1-8B-Instruct
    parameters:
      density: 0.5
      weight: 1.0
  - model: NousResearch/Hermes-3-Llama-3.1-8B
    parameters:
      density: 0.5
      weight: 0.7
  - model: codellama/CodeLlama-8b-Instruct-hf
    parameters:
      density: 0.5
      weight: 0.5
merge_method: ties
base_model: meta-llama/Llama-3.1-8B
parameters:
  normalize: true
dtype: bfloat16

主要パラメータ

density: TRIM ステップで保持するパラメータの割合（0.0〜1.0）。0.5 = 上位50%保持
weight: 各モデルのタスクベクトルへの重み係数
normalize: 統合後のベクトルを正規化するかどうか

TIES の利点と制約

利点

3モデル以上の同時マージに対応（SLERPの2モデル制限を解消）
符号の矛盾を体系的に除去するため、破壊的干渉が少ない
density パラメータで刈り込み強度を直感的に制御可能
DARE と組み合わせた DARE-TIES が最高性能を達成する例が多い

制約

density のチューニングが必要（低すぎると情報喪失、高すぎると干渉増大）
SLERP ほどの安定性は2モデルマージでは得られない場合がある
計算コストは SLERP より若干高い（符号集計の追加コスト）
モデル数が増えるほど多数決の信頼性が上がるが、5モデル以上では diminishing returns

実務での使い分け

条件	推奨手法
2モデルマージ、安定性重視	SLERP
3モデル以上の同時マージ	TIES or DARE-TIES
特化能力の強い統合	DARE
レイヤー単位の制御が必要	Frankenmerge
最大品質を追求	DARE-TIES → SLERP の2段階マージ

よくある質問（FAQ）

Q1: density の最適値はどう決める？ A: 一般的に 0.3〜0.7 の範囲が推奨される。マージするモデル数が多いほど低い density（0.3〜0.4）が有効で、2モデルなら 0.5〜0.7 が安全。lm-evaluation-harness で 0.1 刻みの比較が最も確実。

Q2: TIES と DARE の違いは？ A: TIES は低重要度パラメータを「上位k%」で決定論的に選別し、DARE はランダムにドロップアウトする。TIES は再現性が高く、DARE は確率的探索によりより良い解を見つける可能性がある。実務では DARE-TIES（DARE のランダムドロップ + TIES の符号多数決）の組み合わせが最も高性能。

Q3: 4モデル以上のマージは実用的？ A: 3〜4モデルが実用的な上限である。5モデル以上では各モデルの寄与が薄まり、個々の特化能力が失われやすい。多くの能力を統合したい場合は、まず2〜3モデルずつ TIES でマージし、結果をさらにSLERPで統合する階層的マージが有効。

まとめ

TIES-Merging は TRIM→Elect Sign→Merge の3ステップで干渉を除去するマージ手法
3モデル以上の同時マージに対応し、SLERPの2モデル制限を解消
density パラメータで刈り込み強度を制御（推奨: 0.3〜0.7）
DARE との組み合わせ（DARE-TIES）が多くの場合で最高性能を達成

メニュー

TIES-Merging（タスクベクトル干渉除去マージ）（タイズマージング）

この用語に関連するコンテンツ