MEND（Model Editor Networks using Gradient Decomposition）とは？（メンド）わかりやすく解説

Q: MEND（Model Editor Networks using Gradient Decomposition）とは？

MEND（Model Editor Networks using Gradient Decomposition）とは、勾配分解に基づくハイパーネットワークで LLM の知識を高速編集する Meta-Learning 系手法である。事前学習済みの編集ネットワークが入力に応じた重み更新を 0.1秒で生成する。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

MEND（Model Editor Networks using Gradient Decomposition）とは？（メンド）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

主な特徴・仕組み

Meta-Learning: 編集タスクのメタ分布から Editor Network を事前学習
勾配分解: ファインチューニング勾配 ∇W を U·S·V^T に分解し、Editor が U, V を変換
超高速編集: 編集フェーズは 0.1秒/件（ROME の 30-50倍高速）
GPU メモリ効率: Editor Network 自体は 50-100MB 程度で、ベースモデルに追加するオーバーヘッドが小さい
GPT-2 (124M/774M), GPT-J (6B), T5 (3B) で検証済み
編集成功率: CounterFact で 94.2%（ROME の 99.1% より劣るが実用範囲）
Batched Editing: 小バッチ（10-50件）での同時編集をサポート
外部依存なし: SERAC のように外部メモリ/データベースを必要としない

Editor Network のアーキテクチャ

コンポーネント	役割	サイズ
Gradient Encoder	入力勾配を低ランク因子に分解	20MB
U-Transform	左特異ベクトルを編集目的に変換	15MB
V-Transform	右特異ベクトルを編集目的に変換

指標	MEND	ROME	MEMIT	KE (De Cao 2021)
編集速度	0.1秒	3-5秒	30秒(バッチ)	0.5秒
事前学習	必要（数時間）	不要	不要	必要（数日）
編集成功率	94.2%	99.1%	99.5%	89.7%
局所性	0.872	0.953	0.961	0.834
汎化性	0.901	0.961	0.958	0.856
対象モデル規模	〜6B	〜70B	〜70B	〜3B

# 概念的なワークフロー
editor = load_mend_editor("mend-gpt-j-6b.pt")
edited_model = editor.apply(base_model, edit_request={
    "prompt": "The president of the US is",
    "target": "Jane Smith"
})

メニュー

MEND（Model Editor Networks using Gradient Decomposition）（メンド）

メニュー

MEND（Model Editor Networks using Gradient Decomposition）（メンド）

この用語に関連するコンテンツ

MEND（Model Editor Networks using Gradient Decomposition）とは

概要

主な特徴・仕組み

Editor Network のアーキテクチャ

MEND vs 他手法の詳細比較

実装と利用方法

ユースケース

1. リアルタイム知識更新

2. A/B テスト用モデルバリアント

3. パーソナライズ

課題と限界

よくある質問（FAQ）

まとめ

関連用語