事前学習済みLLMの全パラメータを対象データセットで更新するファインチューニング手法。最高の性能を達成できるが、モデル全体の重み・勾配・オプティマイザ状態をGPUメモリに保持する必要があり、計算コストが極めて高い。7Bモデルで約60GB、70Bモデルで約600GBのVRAMが必要。LoRA/QLoRA等のPEFT手法と対比される。
フルファインチューニング(Full Fine-Tuning)は、事前学習済みの大規模言語モデル(LLM)の全パラメータを、特定のタスクやドメインのデータセットで再学習する手法である。モデルの全重みが更新されるため、最高の性能ポテンシャルを持つが、計算コスト・VRAMが最も大きい。LoRA/QLoRA等のPEFT(パラメータ効率的ファインチューニング)手法の対比として位置づけられる。
フルファインチューニング時のGPUメモリには以下の4要素が必要:
| 要素 | サイズ(7Bモデル・FP16) | サイズ(70Bモデル・FP16) |
|---|---|---|
| モデル重み | 約14GB | 約140GB |
| 勾配 | 約14GB | 約140GB |
| オプティマイザ状態(AdamW) | 約28GB | 約280GB |
| 活性化値 | 約4〜10GB | 約40〜80GB |
| 合計 | 約60〜66GB | 約600〜640GB |
AdamW(最も一般的なオプティマイザ)は各パラメータに対して:
合計でモデル重みの2倍のメモリが必要。
単一GPUでは7Bモデルが限界(A100 80GB)。大規模モデルのフルファインチューニングには分散学習が必須:
| 戦略 | 概要 | 適用規模 |
|---|---|---|
| DDP(Data Parallel) | データを分割、各GPUにモデル全体をコピー | 〜13B(GPU 1枚に収まるモデル) |
| FSDP(Fully Sharded Data Parallel) | モデル・勾配・オプティマイザを全GPUに分割 | 13B〜70B+ |
| DeepSpeed ZeRO Stage 3 | FSDP同等 + CPU オフロード | 70B+ |
| Megatron-LM | テンソル並列 + パイプライン並列 | 100B+(大規模クラスタ) |
| モデルサイズ | 必要GPU | 学習時間(10K samples) | クラウドコスト概算 |
|---|---|---|---|
| 7B | A100 80GB × 1 | 約4〜8時間 | 約$30〜60 |
| 13B | A100 80GB × 2 | 約8〜16時間 | 約$120〜240 |
| 70B | A100 80GB × 8 | 約24〜48時間 | 約$1,500〜3,000 |
| 405B | H100 80GB × 64+ | 数日 | 約$50,000+ |
| 項目 | フルファインチューニング | LoRA | QLoRA |
|---|---|---|---|
| 学習パラメータ | 100% | 0.1〜1% | 0.1〜1% |
| VRAM(7B) | 約60GB | 約16GB | 約6GB |
| 性能上限 | 最高 | 高(95〜100%) | 高(93〜98%) |
| 壊滅的忘却リスク | 高 | 低 | 低 |
| アダプタ切替 | 不可 | 可能 | 可能 |
| 推論速度への影響 | なし | なし(マージ後) |
フルファインチューニングでは、特定ドメインのデータに過度に適応すると、事前学習で獲得した一般的な知識・能力が劣化する「壊滅的忘却」(Catastrophic Forgetting)が発生する。
| 対策 | 説明 |
|---|---|
| 学習率の低減 | 事前学習時の1/10〜1/100の学習率を使用 |
| データ混合 | ドメインデータと一般データを混合して学習 |
| 正則化 | L2正則化/Dropout/Weight Decayで過学習を抑制 |
| 早期停止 | バリデーション損失が増加し始めたら学習を停止 |
まずLoRA/QLoRAを試すのが推奨。多くのタスクでフルファインチューニングの95%以上の性能を1/10以下のコストで達成できる。フルファインチューニングはPEFTで性能が不十分な場合の最終手段として位置づけるのが実践的。
OpenAIのFine-tuning API(GPT-3.5/GPT-4o mini対応)は内部的にはフルファインチューニングとPEFTのハイブリッドと推測されているが、詳細は非公開。ユーザーはAPIにデータをアップロードするだけで、インフラ管理は不要。料金はトークン数に応じた従量制。
ライセンスに依存する。Llama 3(Meta Community License)、Mistral(Apache 2.0)は商用利用可能。GPT系はAPI経由のみでモデル重みは取得不可。ファインチューニング後のモデルもベースモデルのライセンスを継承する点に注意。
| なし(マージ後) |