Self-Instruct（自己指示生成）とは？（セルフインストラクト）わかりやすく解説

Q: Self-Instruct（自己指示生成）とは？

LLM自身に多様な指示（Instruction）と応答のペアを自動生成させ、それをInstruction Tuningの訓練データとして再帰的に活用する手法。Wang et al.（2023）が提案し、175件のシードタスクからGPT-3で52K件の指示データを生成してAlpacaの訓練に成功した。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Self-Instruct（自己指示生成）とは？（セルフインストラクト）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

処理フロー

Self-Instruct の生成パイプラインは以下の 4 段階で構成される。

Step 1: シードタスクの準備

人手で作成した 175件のシードタスクを用意する。各タスクは以下の形式を持つ。

Task: 与えられた文の感情を分析してください
Input: 「今日の天気は最高で気分が良い」
Output: ポジティブ

シードタスクは多様なカテゴリ（分類・生成・変換・QA・推論等）をカバーするよう設計する。

Step 2: 新規指示の生成

LLM にシードタスクからランダムに 8件をサンプリングして提示し、新たなタスク指示の生成を依頼する。

Step 3: 入出力ペアの生成

生成された指示に対して、LLM に入力例と出力例のペアを生成させる。分類タスクの場合はOutput-First（まず出力ラベルを決めてから入力を生成）、生成タスクの場合はInput-First（まず入力を決めてから出力を生成）のアプローチを使い分ける。

Step 4: フィルタリングと品質管理

生成されたデータから以下の条件に該当するものを除外する。

フィルタ	除外条件	目的
ROUGE-L 類似度	既存タスクと ROUGE-L > 0.7	重複排除
長さフィルタ	指示が 5語未満 or 500語超	極端なデータの排除
キーワードフィルタ	「image」「picture」「graph」等を含む

手法	提案者	改良点	代表的な成果物
Self-Instruct (原版)	Wang et al., 2023	175 seed → 52K生成	Alpaca (Stanford)
Evol-Instruct	Xu et al., 2023	段階的に指示を複雑化	WizardLM
Self-Alignment	Li et al., 2023	原則に基づく自己修正	Dromedary
Unnatural Instructions	Honovich et al., 2023	生成→言い換え→フィルタ	64K件のデータセット
Orca	Mukherjee et al., 2023	思考過程（CoT）を含む生成	Orca 1/2
Magpie	Xu et al., 2024	入力テンプレートからの自己生成	Magpie-Air

手法	52K件生成コスト	品質（GPT-4評価）	多様性スコア
人手アノテーション	$50,000-200,000	4.5/5.0	0.82
Self-Instruct (GPT-3)	$500	3.8/5.0	0.75
Self-Instruct (GPT-4)	$3,000	4.3/5.0	0.80
Evol-Instruct (GPT-4)	$4,500	4.4/5.0	0.85
Magpie (Llama-3-70B)	$0 (ローカル)	3.5/5.0	0.72

メニュー

Self-Instruct（自己指示生成）（セルフインストラクト）

メニュー

Self-Instruct（自己指示生成）（セルフインストラクト）

この用語に関連するコンテンツ