LLM のパラメータ効率的ファインチューニング(PEFT)における 2 大手法の比較。Prompt Tuning は入力に Soft Prompt を追加する手法、LoRA は重み行列に低ランク分解の差分を追加する手法。タスク特性・モデルサイズ・運用要件に応じた使い分けが重要。
Prompt Tuning と LoRA(Low-Rank Adaptation)は、2026 年現在の LLM ファインチューニングにおけるパラメータ効率的手法(PEFT)の 2 大潮流である。両者はアプローチが根本的に異なるため、タスク・モデル規模・運用環境に応じた使い分けが性能とコストを大きく左右する。
| 項目 | Prompt Tuning | LoRA |
|---|---|---|
| 提案年 | 2021(Google) | 2021(Microsoft) |
| 介入位置 | 入力 embedding(Soft Prompt 追加) | 重み行列(低ランク差分追加) |
| 学習パラメータ数 | k × d(数万〜数十万) | r × d × 2 × L_target(数百万〜数千万) |
| パラメータ比率(8B モデル) | 0.001〜0.01% | 0.1〜1% |
| 推論オーバーヘッド | 入力長 +k トークン分 | マージ後はゼロ |
| タスク切替 | Soft Prompt 差替のみ | Adapter マージ/アンマージ |
| マルチテナント | 非常に得意 | Adapter 管理が必要 |
| 小規模モデル性能 | 低い(3B 未満で顕著) | 高い(330M から有効) |
| モデル | タスク | Full FT | Prompt Tuning | LoRA (r=8) |
|---|---|---|---|---|
| RoBERTa-Large | SST-2 | 95.6% | 92.1% | 95.2% |
| Llama 3.1-8B | SST-2 | 96.1% | 94.8% | 95.9% |
| Llama 3.1-70B | SST-2 | 96.8% | 96.5% | 96.7% |
| モデル | タスク |
|---|
| Full FT |
|---|
| Prompt Tuning |
|---|
| LoRA (r=16) |
|---|
| GPT-2 Medium | E2E NLG | 68.2 BLEU | 64.1 BLEU | 67.5 BLEU |
| Llama 3.1-8B | 要約 | 43.2 R-L | 40.8 R-L | 42.9 R-L |
| Llama 3.1-70B | 要約 | 45.1 R-L | 44.7 R-L | 45.0 R-L |
| 項目 | Prompt Tuning | LoRA (r=8) | Full FT |
|---|---|---|---|
| 8B モデル VRAM | 18GB | 22GB | 160GB+ |
| 学習速度(相対) | 1.0x | 0.85x | 0.3x |
| 1 epoch 時間(8B, 10K samples) | 15 min | 20 min | 3 hours |
| GPU 要件 | RTX 4090 × 1 | RTX 4090 × 1 | A100 80GB × 4 |
| 条件 | 推奨手法 | 理由 |
|---|---|---|
| モデル 70B+、マルチテナント | Prompt Tuning | タスク切替の軽量さが圧倒的 |
| モデル 7B〜13B、単一タスク | LoRA (r=8〜16) | 安定した性能と低コスト |
| モデル 〜3B | LoRA (r=16〜32) | Prompt Tuning は性能不足 |
| GPU メモリ極小(8GB) | QLoRA | 4bit + LoRA で 7B 学習可能 |
| リアルタイム推論重視 | LoRA(マージ後) | 推論オーバーヘッドゼロ |
| 100 以上のタスクを同時管理 | Prompt Tuning | Adapter 管理コストが膨大になる |
Q1: LoRA と Prompt Tuning を同時に使えますか? A: 使える。Hugging Face PEFT では複数の PEFT メソッドを組み合わせるマルチアダプター機能がある。ただし学習が複雑化するため、まず単体で十分な性能が出るか確認してからの併用を推奨。
Q2: コスト最小で最大性能を得る組み合わせは? A: 2026 年現在の実務では QLoRA(4bit 量子化 + LoRA r=16)が最もコスト効率が高い。A100 1 枚で 70B モデルの学習が可能で、フルファインチューニングの 95% 以上の性能を達成できる。
Q3: 将来的にどちらが主流になりますか? A: 2026 年時点では LoRA/QLoRA が実務の主流。しかし 1T パラメータ超のモデルが普及すれば、Prompt Tuning のパラメータ効率と切替容易性が再評価される可能性がある。両手法は共存し続ける。