既存のLLMを使用して人工的な学習データを生成する技術。Self-Instruct、Evol-Instruct、SPIN等の手法があり、高品質な指示追従データセットの構築や、データ不足領域の補完に活用される。
合成データ生成(Synthetic Data Generation)は、既存のLLMや生成モデルを活用して人工的な学習データを作成する技術である。人手によるアノテーションのコスト・時間を大幅に削減しつつ、高品質で多様なデータセットを構築できることから、LLMの命令チューニングやドメイン特化学習で広く採用されている。
GPT-3/4等の強力なLLMに、少数のシード命令を与えて新しい命令-応答ペアを自動生成させる手法。Alpacaデータセット(52K件)はGPT-3.5による Self-Instructで生成され、Stanford Alpacaモデルの学習に使用された。
WizardLMで提案された手法。既存の命令を「進化」させて、より複雑・多様な命令を段階的に生成する。深化(Deepening)と広化(Broadening)の2方向の進化を交互に適用し、難易度と多様性を同時に向上させる。
モデル自身の出力を「弱い対戦相手」として自己対戦学習を行う手法。追加の人手アノテーションなしで、モデルの応答品質を反復的に向上させる。
GPT-4やClaude等の大型モデルの出力を小型モデルの学習データとして使用する。Orca、Phi、Cosmopediaなどが代表例。教師モデルの推論過程(Chain-of-Thought)を含む出力が特に有効とされる。
| 課題 | 対策 | 効果 |
|---|---|---|
| Model Collapse | 実データとの混合比率管理 | 多様性維持 |
| 事実誤認 | ファクトチェック分類器 | 正確性向上 |
| 多様性不足 | 温度パラメータ調整・プロンプト多様化 | 表現の幅確保 |
| バイアス継承 | 教師モデルのバイアス監査 | 公平性確保 |
| 品質のばらつき | LLM-as-Judge フィルタリング | 一貫性向上 |
合成データのみで学習を繰り返すと、モデルの出力分布が縮退し、多様性と品質が低下する「Model Collapse」が発生する。これを防ぐため、実データと合成データの混合比率を慎重に管理する必要がある。研究では合成データ30〜50%、実データ50〜70%の混合が推奨されている。
| データセット | 生成手法 | サイズ | 用途 |
|---|---|---|---|
| Alpaca | Self-Instruct (GPT-3.5) | 52K | 命令追従 |
| WizardLM | Evol-Instruct (ChatGPT) | 250K | 複雑命令追従 |
| Orca | 蒸留 (GPT-4) | 数百万 | 推論能力 |
| Cosmopedia | 蒸留 (Mixtral) | 30M | 教育的テキスト |
| Magpie | LLM自動生成 | 4M | 汎用対話 |
| OpenMathInstruct | GPT-4 + 検証 | 1.8M |
教師モデルの利用規約(Terms of Service)に注意が必要。OpenAIのAPIは「出力を競合モデルの学習に使用すること」を禁止しており、蒸留ベースの合成データ生成が規約違反となる可能性がある。オープンソースモデル(Llama、Mistral等)を教師として使用する場合はライセンス条件を確認する。
A1: 理論的には可能だが、実用上は推奨されない。合成データのみの学習ではModel Collapseのリスクが高く、実データとの混合が標準的なアプローチ。ただし、Phi-1/Phi-2のように合成データ主体で高性能を達成した例もあり、データの品質と多様性次第では少量の実データでも十分な場合がある。
A2: LLM-as-Judge(GPT-4等による自動評価)、人手評価のサンプリング、下流タスクでのアブレーションスタディの3手法を組み合わせるのが標準的。特にLLM-as-Judgeは人間評価との相関が高く(Spearman ρ > 0.85)、コスト効率に優れる。
A3: 数学・コーディング・論理推論など、回答の正否を自動検証できる分野で最も効果的。検証可能な分野では、大量の合成データを生成し正解のみをフィルタリングする「rejection sampling」が強力に機能する。創作・主観的判断が求められる分野では品質管理が難しい。
| 数学推論 |