LLMに推論の過程をステップバイステップで出力させることで、複雑な問題の正答率を大幅に向上させるプロンプティング手法。「Let's think step by step」という一文を追加するだけで算数・論理・常識推論の精度が10〜40%改善されることが Google Research(2022年)により示された。
Chain-of-Thought(CoT)は、LLMに最終回答だけでなく思考の過程(推論チェーン)を出力させるプロンプティング手法である。Google Research の Wei et al.(2022年)が発表した論文で体系化され、算術・論理・常識推論タスクで劇的な精度改善を実証した。
通常のプロンプティングでは LLM は質問に対して直接回答を出力する。CoT では中間の推論ステップを明示的に生成させることで、モデルが「考えながら」回答に到達する。
通常(Direct Answering): Q: 店に23個のリンゴがあり、20個仕入れて15個売れた。残りは? A: 28個
CoT: Q: 店に23個のリンゴがあり、20個仕入れて15個売れた。残りは? A: 最初に23個あります。20個仕入れたので 23+20=43個になります。15個売れたので 43-15=28個です。答えは28個です。
| 手法 | 提案年 | 特徴 |
|---|---|---|
| Manual CoT | 2022 | 推論例を手動で作成してFew-shotで提示 |
| Zero-shot CoT | 2022 | 「ステップバイステップで考えてください」の一文で誘発 |
| Auto-CoT | 2022 | 推論例を自動生成。手動作成の手間を排除 |
| Self-Consistency | 2023 | 複数の推論パスを生成し多数決で最終回答 |
| Tree-of-Thought | 2023 | 推論を木構造に分岐させ最適パスを探索 |
| Graph-of-Thought | 2024 | 推論をグラフ構造で表現。分岐と合流を許容 |
Zero-shot CoT は、タスク指示の末尾に以下のような一文を追加するだけで機能する。
GSM8K(小学算数)ベンチマークで、GPT-3.5 の正答率が Zero-shot 約35% → Zero-shot CoT 約65%に改善された例がある。
A1: パラメータ数が概ね60B以上のモデルで効果が顕著。小型モデル(7B〜13Bクラス)では CoT が逆効果(推論の途中で誤りが蓄積)になるケースがある。ただし 2025年以降の高品質な小型モデル(Phi-4等)では改善が見られる。
A2: 推論ステップの出力で通常の2〜5倍のトークンを消費する。コスト最適化には Self-Consistency(複数回生成→多数決)ではなく、1回の CoT + 検証ステップの方が効率的な場合が多い。
A3: 概念は類似するが異なる。CoT はプロンプトの工夫でモデルに推論を出力させる手法。Extended Thinking は Anthropic Claude や OpenAI o1 に組み込まれた、モデル内部で長い推論プロセスを実行する機能。後者はユーザーが明示的に指示しなくても自動的に深い推論を行う。