Chain-of-Thought蒸留とは？（チェインオブソートジョウリュウ）わかりやすく解説

Q: Chain-of-Thought蒸留とは？

Chain-of-Thought蒸留（CoT Distillation）とは、大規模モデルが段階的推論（Chain-of-Thought）で生成した思考過程と最終回答を、より小さなモデルが推論ステップなしまたは短縮された推論で再現できるように訓練する手法である。

主な特徴・仕組み

推論トークン削減: 教師の200-500トークンのCoTを、生徒は0-50トークンで代替

精度維持: GSM8K（数学）で教師96%→生徒92-94%、MATH（高難度数学）で教師78%→生徒70-74%

レイテンシ改善: CoTなし推論により応答時間を3-5倍短縮

隠れCoT: モデル内部で暗黙的に推論ステップを実行し、最終回答のみ出力

段階的圧縮: 長いCoT→短いCoT→CoTなしの3段階で蒸留精度を最大化

タスク条件付き: 簡単な問題はCoTなし、難しい問題のみCoT付きで出力する適応型

手法	推論トークン	GSM8K精度	MATH精度	対象モデルサイズ
フルCoT（教師）	200-500	96%	78%	70B+
CoT蒸留（標準）	0	92%	70%	7B-14B
短縮CoT蒸留	20-50	94%	74%	7B-14B
隠れCoT蒸留	0（内部処理）	93%	72%	14B-32B
適応型CoT	0-200（動的）	95%	76%	14B-32B

手法

推論トークン

GSM8K精度

MATH精度

対象モデルサイズ

フルCoT（教師）

200-500

96%

78%

70B+

CoT蒸留（標準）

92%

70%

7B-14B

短縮CoT蒸留

20-50

94%

74%

7B-14B

隠れCoT蒸留

0（内部処理）

93%

72%

14B-32B

適応型CoT

0-200（動的）

95%

76%

14B-32B

代表的な実装事例

DeepSeek-R1-Distill シリーズ

DeepSeek-R1（671Bパラメータ MoE）の推論能力をQwen 2.5ベースの1.5B/7B/8B/14B/32B/70Bに蒸留。AIME 2024（数学オリンピック級）で7Bモデルが55.5%を達成（GPT-4o: 9.3%）。蒸留データは80万件のCoT推論ペア。

OpenAI o3/o3-mini

o3の「内部推論トークン」（非公開）を圧縮し、o3-miniとしてAPI提供。推論コストを10分の1に削減しつつ、コーディング（SWE-bench: 49%→43%）、数学（MATH: 96%→90%）で高精度を維持。

Google Gemini Flash Thinking

Gemini 2.0 Proの思考過程をFlash（軽量モデル）に蒸留。API料金はProの1/5、レイテンシは1/3でありながら、推論ベンチマークで90%以上の精度を維持。

よくある質問（FAQ）

Q1: CoT蒸留で最も効果的なタスクは何ですか？ A: 数学推論（GSM8K、MATH、AMC）とコード生成（HumanEval、MBPP）で最も顕著な効果があります。これらのタスクはCoTの有無で精度が大きく変わるため、蒸留の価値が高いです。一方、要約や翻訳などCoTの恩恵が小さいタスクでは蒸留効果も限定的です。

Q2: DeepSeek-R1-Distillモデルはどこで使えますか？ A: HuggingFaceで公開されており、MITライセンスで自由に利用可能です。vLLM、Ollama、llama.cppなど主要な推論エンジンで実行できます。8Bモデルは16GB VRAM（RTX 4080以上）、70Bモデルは80GB以上（A100/H100）が必要です。

Q3: 蒸留データはどのように作成しますか？ A: 教師モデルにCoTプロンプト（「ステップバイステップで考えてください」等）を付与し、（入力, CoT推論過程, 最終回答）の三つ組を大量生成します。品質フィルタリング（最終回答が正解のペアのみ採用）を行った後、生徒モデルを「入力→最終回答」のペアで訓練します。

まとめ

CoT蒸留は推論能力を小型モデルに転移する技術

推論トークン200-500→0-50に削減、レイテンシ3-5倍改善

DeepSeek-R1-Distill 7BがGPT-4oを上回る数学精度を達成

数学・コード生成タスクで特に効果的

適応型CoT（難易度に応じて推論量を動的調整）が2026年のトレンド

メニュー

Chain-of-Thought蒸留（チェインオブソートジョウリュウ）

この用語に関連するコンテンツ

メニュー

Chain-of-Thought蒸留（チェインオブソートジョウリュウ）

この用語に関連するコンテンツ

概要

主な特徴・仕組み

CoT蒸留の手法比較

代表的な実装事例

DeepSeek-R1-Distill シリーズ

OpenAI o3/o3-mini

Google Gemini Flash Thinking

よくある質問（FAQ）

まとめ

関連用語