LLMが最終回答に至る前に中間的な推論ステップを逐次生成する手法。テスト時計算の最も基本的かつ広く普及したアプローチであり、OpenAI o1やDeepSeek R1の中核技術である。
Chain-of-Thought(CoT)推論とは、LLMが問題を解く際に「思考の連鎖」として中間ステップを明示的に生成し、段階的に最終回答へ到達する推論手法である。2022年のGoogle Brainの研究(Wei et al.)で初めて体系化され、2024年以降はOpenAI o1やDeepSeek R1の内部推論エンジンとしてテスト時計算の基盤技術に昇格した。
| 世代 | 時期 | 手法 | 代表例 |
|---|---|---|---|
| 第1世代 | 2022年 | Few-shot CoTプロンプティング | Wei et al. (Google Brain) |
| 第2世代 | 2023年 | Zero-shot CoT(「ステップバイステップで考えて」) | Kojima et al. |
| 第3世代 | 2024年 | 学習済みCoT(推論トレーニング) | OpenAI o1、DeepSeek R1 |
| 第4世代 | 2025〜26年 | 適応的CoT(動的推論深度) | o3-mini、Gemini 2.0 Flash Thinking |
従来のプロンプトベースCoTと、テスト時計算における学習済みCoTの違いを明確化する。
学習済みCoTモデルが生成する内部思考の典型的な構造を示す。
CoTの有無による性能差を主要ベンチマークで比較する。
| ベンチマーク | 標準推論(GPT-4) | CoTプロンプト(GPT-4) | 学習済みCoT(o1) | 学習済みCoT(o3) |
|---|---|---|---|---|
| GSM8K(小学算数) | 92.0% | 95.5% | 97.8% | 99.2% |
| MATH(大学数学) | 52.9% | 68.4% | 94.8% | 96.7% |
| AIME 2024 | 12.0% | 26.7% | 83.3% | 96.7% |
| HumanEval(コード) | 67.0% | 74.4% | 92.4% | 97.2% |
| GPQA Diamond(科学) | 53.6% | 58.2% | 78.0% | 87.7% |
| ARC-AGI(推論) | 5.0% | 9.0% | 32.0% | 87.5% |
Q1: プロンプトに「ステップバイステップで考えて」と書くだけでo1と同じ効果が得られるか? A: 得られない。プロンプトCoTは改善幅が10〜30%だが、o1の学習済みCoTは50〜200%の改善を達成する。学習済みCoTはモデルパラメータ自体が推論プロセスに最適化されており、プロンプト指示とは本質的に異なる。
Q2: CoTの思考トークンをユーザーに公開しているモデルはあるか? A: DeepSeek R1はオープンソースのため内部思考が完全に閲覧可能。Anthropic Claude 3.5 OpusのExtended ThinkingもAPIで思考トークンを返却する。一方、OpenAI o1/o3は安全性を理由に思考を非公開としている。
Q3: CoTは日本語でも英語と同等の効果があるか? A: 主要な推論モデルは英語で学習されているため、日本語では性能が5〜15%低下する傾向がある。ただし、DeepSeek R1は中国語と英語の多言語学習により、日本語でも比較的高い推論性能を維持している。