Chain-of-Thought蒸留(CoT Distillation)とは、大規模モデルが段階的推論(Chain-of-Thought)で生成した思考過程と最終回答を、より小さなモデルが推論ステップなしまたは短縮された推論で再現できるように訓練する手法である。
Chain-of-Thought(CoT)蒸留は、LLMの推論能力を効率的に小型モデルに転移するための技術である。大規模モデルが「考える過程」を出力する能力は強力だが、推論ステップの生成には追加のトークンとレイテンシが必要である。CoT蒸留はこのトレードオフを解消し、小型モデルでも高い推論精度を実現する。
2022年にGoogleが発表した「Chain-of-Thought Prompting」は、LLMに段階的な推論を促すことで複雑なタスクの精度を大幅に向上させた。しかし、CoTプロンプティングには以下の課題がある:
CoT蒸留はこれらの課題を解決する。大規模モデル(教師)のCoT出力を訓練データとし、小型モデル(生徒)がCoTなしまたは短縮CoTで同等の回答精度を達成できるように訓練する。
2026年の主要な成果:
| 手法 | 推論トークン | GSM8K精度 | MATH精度 | 対象モデルサイズ |
|---|---|---|---|---|
| フルCoT(教師) | 200-500 | 96% | 78% | 70B+ |
| CoT蒸留(標準) | 0 | 92% | 70% | 7B-14B |
| 短縮CoT蒸留 | 20-50 | 94% | 74% | 7B-14B |
| 隠れCoT蒸留 | 0(内部処理) | 93% | 72% | 14B-32B |
| 適応型CoT | 0-200(動的) | 95% | 76% | 14B-32B |
DeepSeek-R1(671Bパラメータ MoE)の推論能力をQwen 2.5ベースの1.5B/7B/8B/14B/32B/70Bに蒸留。AIME 2024(数学オリンピック級)で7Bモデルが55.5%を達成(GPT-4o: 9.3%)。蒸留データは80万件のCoT推論ペア。
o3の「内部推論トークン」(非公開)を圧縮し、o3-miniとしてAPI提供。推論コストを10分の1に削減しつつ、コーディング(SWE-bench: 49%→43%)、数学(MATH: 96%→90%)で高精度を維持。
Gemini 2.0 Proの思考過程をFlash(軽量モデル)に蒸留。API料金はProの1/5、レイテンシは1/3でありながら、推論ベンチマークで90%以上の精度を維持。
Q1: CoT蒸留で最も効果的なタスクは何ですか? A: 数学推論(GSM8K、MATH、AMC)とコード生成(HumanEval、MBPP)で最も顕著な効果があります。これらのタスクはCoTの有無で精度が大きく変わるため、蒸留の価値が高いです。一方、要約や翻訳などCoTの恩恵が小さいタスクでは蒸留効果も限定的です。
Q2: DeepSeek-R1-Distillモデルはどこで使えますか? A: HuggingFaceで公開されており、MITライセンスで自由に利用可能です。vLLM、Ollama、llama.cppなど主要な推論エンジンで実行できます。8Bモデルは16GB VRAM(RTX 4080以上)、70Bモデルは80GB以上(A100/H100)が必要です。
Q3: 蒸留データはどのように作成しますか? A: 教師モデルにCoTプロンプト(「ステップバイステップで考えてください」等)を付与し、(入力, CoT推論過程, 最終回答)の三つ組を大量生成します。品質フィルタリング(最終回答が正解のペアのみ採用)を行った後、生徒モデルを「入力→最終回答」のペアで訓練します。