大規模言語モデルに「指示に従って応答する」能力を付与するファインチューニング手法。人間が作成した指示-応答ペアのデータセットで教師あり学習を行い、ゼロショットでの指示追従性を大幅に向上させる。FLAN、InstructGPT、Alpaca等の先駆的研究で実用性が実証され、現代のLLMの標準的な訓練ステップとなっている。
Instruction Tuning(指示チューニング)は、大規模言語モデル(LLM)に「自然言語の指示に従って応答する」能力を付与するファインチューニング手法である。事前学習だけでは「次のトークンを予測する」能力しか持たないLLMを、「ユーザーの指示を理解し適切に応答する」対話型AIに変換する。
| 段階 | 目的 | データ | 学習目標 |
|---|---|---|---|
| 事前学習(Pre-training) | 言語知識の獲得 | 大規模テキストコーパス(数兆トークン) | 次トークン予測 |
| Instruction Tuning | 指示追従能力の獲得 | 指示-応答ペア(数万〜数百万件) | 指示に対する適切な応答生成 |
| RLHF | 人間の好みへの適合 | 人間の比較評価データ | 報酬最大化 |
| モデル/研究 | 年 | 開発元 | データセット規模 | 特徴 |
|---|---|---|---|---|
| FLAN | 2022 | 62タスク・473Kサンプル | マルチタスク指示チューニングの先駆 | |
| InstructGPT | 2022 | OpenAI | 約13Kデモ + 33K比較 | SFT + RLHF の3段階パイプライン |
| FLAN-T5/PaLM | 2022 | 1,800+タスク | タスク数スケーリング実証 | |
| Alpaca | 2023 | Stanford | 52K(GPT-3.5生成) | 低コスト合成データアプローチ |
| Vicuna | 2023 | LMSYS | 70K(ShareGPT由来) | ユーザー対話データ活用 |
| Orca | 2023 | Microsoft | 5M(GPT-4推論トレース) | 推論過程の模倣学習 |
Instruction Tuningデータセットは通常3つの要素で構成される:
LIMA論文(Zhou et al., 2023)は「1,000件の高品質データでGPT-4に匹敵する応答品質を達成できる」ことを示し、データの質が量より重要であることを実証した。
| アプローチ | データ量 | データ品質 | 性能 |
|---|---|---|---|
| Alpaca | 52K | 中(GPT-3.5自動生成) | 中 |
| LIMA | 1K | 最高(人手厳選) | 高 |
| Orca | 5M | 高(GPT-4推論トレース) | 最高 |
高品質な人手データの収集はコストが高いため、強力なLLM(GPT-4等)を教師モデルとして合成データを生成するアプローチが主流:
| 手法 | 教師モデル | 生成方法 | 特徴 |
|---|---|---|---|
| Self-Instruct | GPT-3 | シード指示から自己増殖 | 最初の自動生成アプローチ |
| Alpaca | GPT-3.5 | 175シードから52K生成 | $500以下のコスト |
| Evol-Instruct | GPT-4 | 指示の段階的複雑化 | WizardLMの基盤 |
| Magpie | Llama 3 | モデル自身から抽出 | 外部教師不要 |
SFTは教師ありファインチューニングの総称で、Instruction TuningはSFTの一種。SFTが特定タスクのデータで学習するのに対し、Instruction Tuningは多様なタスクの「指示-応答」ペアで学習し、未知のタスクへのゼロショット汎化を目指す。
Instruction Tuningだけでも高品質な応答は可能だが、RLHFを追加すると安全性・丁寧さ・指示追従の精度がさらに向上する。ChatGPTはSFT→RLHFの2段階、Claude はConstitutional AI(CAI)を採用している。