Instruction Tuningは、自然言語の指示文(instruction)と応答ペアのデータセットを用いてLLMをファインチューニングし、ユーザーの指示に正確に従う能力を獲得させる学習手法である。
Instruction Tuningとは、大規模言語モデル(LLM)に対して「指示文+応答」のペアデータを用いてファインチューニングを行い、ユーザーからの多様な指示に正確に従えるようにする学習手法である。Google ResearchのFLANプロジェクト(2021年)で体系化され、現在のチャットAIの基盤技術となっている。
事前学習(Pre-training)だけでは、LLMは膨大なテキストの統計的パターンを学習するものの、ユーザーの意図に沿った応答を生成する能力は不十分である。Instruction Tuningは、この課題を解決するために「指示→応答」の明示的なペアデータで追加学習を行うアプローチだ。
2021年にGoogleが発表したFLAN(Finetuned Language Net)は、62種類のNLPタスクを統一的な指示形式に変換し、137Bパラメータモデルに適用した。結果、未知のタスクに対するゼロショット性能がGPT-3を上回り、Instruction Tuningの有効性が実証された。2022年にはFLAN-T5/FLAN-PaLMで1,800以上のタスク・473データセットに拡張され、スケーリング則も確認された。
Instruction Tuningには複数のアプローチが存在する:
| 手法 | データ規模 | ベースモデル | 特徴 | 公開年 |
|---|---|---|---|---|
| FLAN | 62タスク | LaMDA 137B | マルチタスク統一 | 2021 |
| FLAN-v2 | 1,800タスク | PaLM 540B / T5 | スケール拡大 | 2022 |
| Self-Instruct |
| 52K指示 |
| GPT-3 davinci |
| 自動データ生成 |
| 2022 |
| Alpaca | 52K指示 | LLaMA 7B | 低コスト蒸留 | 2023 |
| Orca | 5M推論ペア | LLaMA 13B | 推論プロセス蒸留 | 2023 |
| Dolly 2.0 | 15K人手 | Pythia 12B | 商用利用可能 | 2023 |
典型的なInstruction Tuningのパイプラインは以下の4段階で構成される:
Instruction Tuningに使用される主要データセットは多岐にわたる:
2025-2026年の主要な実装フレームワーク:
学習コストの目安として、LLaMA 3.1 8BモデルをQLoRAで52Kデータセットに対してInstruction Tuningする場合、RTX 4090(24GB VRAM)1枚で約4時間、電力コストは約¥200程度である。
| 比較軸 | Instruction Tuning | RLHF | Prompt Engineering |
|---|---|---|---|
| モデル変更 | あり(重み更新) | あり(重み更新) | なし(推論のみ) |
| データ | 指示-応答ペア | 人間の好み比較 | プロンプト文のみ |
| コスト | 中(GPU数時間) | 高(報酬モデル+PPO) | 低(API呼び出しのみ) |
| 効果持続 | 永続(モデルに内蔵) | 永続(モデルに内蔵) | 一時的(コンテキスト依存) |
| 典型コスト | ¥200-50,000 | ¥50,000-500,000 | ¥0-1,000/推論 |
Q1: Instruction TuningとRLHFの違いは何ですか? A: Instruction Tuningは「正解応答」を直接学習する教師あり学習(SFT)であり、RLHFは「人間がどちらの応答を好むか」という相対的な選好データから報酬モデルを構築し強化学習で最適化する手法です。通常、Instruction Tuning(SFT)→ RLHF の順で適用します。
Q2: 少量のデータでもInstruction Tuningは効果がありますか? A: はい。LIMA(Meta、2023年)の研究では、わずか1,000件の高品質な指示-応答ペアでGPT-4に匹敵する応答品質を達成できることが示されました。データの量よりも質(多様性・正確性・詳細度)が重要です。
Q3: Instruction Tuningに必要なGPUスペックはどの程度ですか? A: 7Bモデルの場合、QLoRA(4bit量子化)を使えばRTX 4090(24GB VRAM)1枚で実行可能です。フル精度のファインチューニングには A100 80GB が2-4枚必要ですが、LoRA/QLoRAの普及により個人開発者でもアクセス可能になっています。
Q4: 日本語のInstruction Tuningデータセットはありますか? A: はい。Japanese Alpaca(52K件の日本語翻訳)、ichikara-instruction(手作業で構築された日本語指示データ)、Databricks Dolly 15K日本語版、OASST日本語サブセットなどが公開されています。Stability AIのJapanese StableLM Instructシリーズも日本語Instruction Tuning済みモデルです。