Instruction Tuningとは？（インストラクションチューニング）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Instruction Tuningとは？（インストラクションチューニング）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

主な手法と特徴

Instruction Tuningには複数のアプローチが存在する：

マルチタスク統合型: FLAN、T0（BigScience）のように、既存NLPベンチマークを指示形式に変換して大規模に統合
Self-Instruct型: GPT-3/4などの強力なモデルで指示データを自動生成し、ターゲットモデルを学習（Stanford Alpaca、WizardLM）
蒸留型: GPT-4やClaude 3.5の出力を教師データとしてオープンモデルを学習（Orca、Orca 2）
人手キュレーション型: Dolly 2.0（Databricks、15,000件の人手作成データ）、OpenAssistant（35,000件のクラウドソーシングデータ）
合成データ拡張型: Evol-Instruct（WizardLM）で既存指示を段階的に複雑化、UltraChat（1.5M対話ペア）

手法	データ規模	ベースモデル	特徴	公開年
FLAN	62タスク	LaMDA 137B	マルチタスク統一	2021
FLAN-v2	1,800タスク	PaLM 540B / T5	スケール拡大	2022
Self-Instruct

比較軸	Instruction Tuning	RLHF	Prompt Engineering
モデル変更	あり（重み更新）	あり（重み更新）	なし（推論のみ）
データ	指示-応答ペア	人間の好み比較	プロンプト文のみ
コスト	中（GPU数時間）	高（報酬モデル＋PPO）	低（API呼び出しのみ）
効果持続	永続（モデルに内蔵）	永続（モデルに内蔵）	一時的（コンテキスト依存）
典型コスト	¥200-50,000	¥50,000-500,000	¥0-1,000/推論