Instruction Tuningとは？（インストラクションチューニング）わかりやすく解説

データ形式: 「system prompt + user instruction + assistant response」の3要素構成が標準。ChatML形式やAlpaca形式が広く使われる
タスク多様性: 翻訳、要約、QA、コード生成、数学、創作文、分類など多様なタスクを混合
スケーリング則: タスク数を増やすほどZero-shot性能が向上。FLAN研究では1,800タスクで飽和傾向
品質の重要性: LIMA論文（2023年）は、わずか1,000件の極めて高品質なデータでGPT-4に匹敵する応答品質を達成できることを示した（「Less Is More for Alignment」）
合成データ活用: Alpacaに始まり、強力なLLM（GPT-4等）で指示データを自動生成する手法が一般化。コスト効率が高い
多言語対応: OASST、Aya（Cohere）など多言語Instructionデータセットの整備が進行
評価: MT-Bench（マルチターン、GPT-4評価）、AlpacaEval（自動評価）、Chatbot Arena（人間評価）が三大評価基盤
段階的学習: 多くの商用モデルはSFT（Supervised Fine-Tuning = Instruction Tuning）→ RLHF/DPO の2段階で学習

大規模言語モデルに対し、人間の指示（Instruction）と期待される応答のペアデータで追加学習を行い、モデルの指示追従能力を向上させる手法。ChatGPTの基盤技術の一つであり、汎用LLMを実用的なアシスタントに変換する鍵となる技術。

Instruction Tuningとは？（インストラクションチューニング）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

代表的なInstruction Tuningデータセット

データセット	件数	言語	特徴	ライセンス
FLAN Collection	1,800タスク	英語中心	Google作成、最大規模	Apache 2.0
Alpaca	52,000件	英語	GPT-3.5で生成、Stanford	CC BY-NC 4.0
ShareGPT	90,000+件	多言語	ユーザー投稿の会話ログ	要確認
OpenAssistant (OASST)	161,000件	35言語	人間ボランティア作成	Apache 2.0