Chain-of-Thought推論（テスト時計算）とは？（チェインオブソートスイロン）わかりやすく解説

問題分解: 複雑な問題をサブ問題に分割。「まず条件Aを整理し、次にBとの関係を考え...」
仮説生成: 複数の解法候補を列挙。「アプローチ1: 直接計算、アプローチ2: 漸化式、アプローチ3: 対称性利用」
検証ステップ: 各ステップの結果を自己チェック。「ここで計算を確認すると...値が一致するので正しい」
バックトラック: 行き詰まった場合に前のステップに戻る。「このアプローチでは解けない。別の方法を試す」
最終統合: サブ問題の結果を統合して最終回答を構成

LLMが最終回答に至る前に中間的な推論ステップを逐次生成する手法。テスト時計算の最も基本的かつ広く普及したアプローチであり、OpenAI o1やDeepSeek R1の中核技術である。

Chain-of-Thought推論（テスト時計算）とは？（チェインオブソートスイロン）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

CoTの発展段階

世代	時期	手法	代表例
第1世代	2022年	Few-shot CoTプロンプティング	Wei et al. (Google Brain)
第2世代	2023年	Zero-shot CoT（「ステップバイステップで考えて」）	Kojima et al.
第3世代	2024年	学習済みCoT（推論トレーニング）	OpenAI o1、DeepSeek R1
第4世代	2025〜26年	適応的CoT（動的推論深度）	o3-mini、Gemini 2.0 Flash Thinking

従来のプロンプトベースCoTと、テスト時計算における学習済みCoTの違いを明確化する。

プロンプトCoT: ユーザーがプロンプトに「ステップバイステップで考えて」と指示を追加。モデル自体は変更されず、プロンプトエンジニアリングの範疇。改善幅は10〜30%程度

ベンチマーク	標準推論（GPT-4）	CoTプロンプト（GPT-4）	学習済みCoT（o1）	学習済みCoT（o3）
GSM8K（小学算数）	92.0%	95.5%	97.8%	99.2%
MATH（大学数学）	52.9%	68.4%	94.8%	96.7%
AIME 2024	12.0%	26.7%	83.3%	96.7%
HumanEval（コード）	67.0%	74.4%	92.4%	97.2%
GPQA Diamond（科学）	53.6%	58.2%	78.0%	87.7%
ARC-AGI（推論）	5.0%	9.0%	32.0%	87.5%