LLM蒸留の基盤となる学習構造で、大規模な教師モデル(Teacher)が生成するソフトラベルを生徒モデル(Student)の学習信号として利用する二段階アーキテクチャ
Teacher-Studentアーキテクチャは、知識蒸留(Knowledge Distillation)の中核をなす学習フレームワークである。大規模で高精度な教師モデル(Teacher)が入力データに対して生成する確率分布(ソフトラベル)を、小型の生徒モデル(Student)が模倣するように学習する。2015年のHintonらの論文「Distilling the Knowledge in a Neural Network」で体系化され、2024〜2026年のLLM時代には事実上の業界標準となっている。
Teacher-Studentアーキテクチャは以下の要素で構成される:
| パターン | Teacher規模 | Student規模 | 圧縮率 | 用途 |
|---|---|---|---|---|
| 同一アーキテクチャ | 70B Transformer | 7B Transformer | 10x | 汎用LLM蒸留 |
| 異種アーキテクチャ | 70B Transformer | 7B Mamba/RWKV | 10x | 推論最適化 |
| Multi-Teacher | 複数70B | 7B | 10x | アンサンブル蒸留 |
| Self-Distillation | 同一モデル | 同一モデル(層削減) | 1.5-2x | 効率化 |
| Progressive | 70B → 30B → 7B | 段階的縮小 | 10x | 安定蒸留 |
蒸留の品質を左右する主要パラメータ:
実験的に、Teacher/Student間のサイズ比が大きすぎると「キャパシティギャップ」問題が発生する。70B → 1.7Bのような極端な圧縮では、中間サイズ(7B)を経由するProgressive Distillationが有効:
Llama 3.1 405B → Llama 3.1 70B → Llama 3.2 8B → SmolLM2 1.7B
(段階的にTeacherを縮小して安定蒸留)
複数のTeacherからStudentに蒸留するアプローチが注目されている:
同一モデル内での蒸留(深い層 → 浅い層)も実用化:
Q1: TeacherとStudentは同じアーキテクチャでなければなりませんか? A: いいえ。TransformerのTeacherからMambaやRWKVのStudentへの異種蒸留も可能です。ただし中間層の特徴量蒸留は同一アーキテクチャの方が容易です。
Q2: Teacher-Studentの最適なサイズ比は? A: 一般的には5〜10倍の圧縮が精度維持の点で安定します。10倍以上の圧縮にはProgressive Distillation(段階的縮小)が推奨されます。
Q3: 複数のTeacherを使うメリットは何ですか? A: 各Teacherの強みを統合できます。例えばGPT-4oの数学能力とClaude 3.5のコード能力を1つのStudentに集約し、単一Teacherを超えるケースもあります。