LLMのChain-of-Thought(思考連鎖)推論において、思考ステップの長さや深さを拡大することで推論精度を向上させる手法。推論トークン数を増やすことで、より複雑な問題への対応力が飛躍的に高まることが実証されている。
Chain-of-Thoughtスケーリングとは、大規模言語モデルの推論プロセスにおいて、思考連鎖(Chain-of-Thought: CoT)のステップ数やトークン数を意図的に拡大し、推論精度を向上させる手法である。2022年のCoTプロンプティング提案以降、思考ステップを長くすることで推論能力が系統的に向上することが確認され、2024年以降はモデル内部で自動的に長い思考連鎖を生成する方式が主流となった。
Chain-of-Thoughtの概念は段階的に発展してきた。
| 時期 | マイルストーン | 手法 | 推論トークン数 |
|---|---|---|---|
| 2022年1月 | CoTプロンプティング提案(Wei et al.) | Few-shot CoT | 50〜200トークン |
| 2022年3月 | Zero-shot CoT(「Let's think step by step」) | ゼロショット | 100〜500トークン |
| 2023年5月 | Tree-of-Thought(Yao et al.) | 分岐探索 | 500〜5,000トークン |
| 2024年9月 | OpenAI o1リリース | 内部CoTスケーリング | 5,000〜50,000トークン |
| 2025年1月 | DeepSeek-R1 | 強化学習ベースCoT | 10,000〜100,000トークン |
| 2025年4月 | OpenAI o3 | 適応的CoTスケーリング | 最大200,000トークン |
CoTのスケーリングにはべき乗則(Power Law)が観察されている。推論トークン数を$N$とすると、特定のベンチマークスコア$S$は概ね以下の関係を示す:
具体的なベンチマーク結果:
| モデル | MATH (Pass@1) | 推論トークン数(中央値) | コスト/問題 |
|---|---|---|---|
| GPT-4(通常推論) | 52.9% | 200トークン | $0.01 |
| GPT-4 + CoTプロンプト | 67.2% | 800トークン | $0.04 |
| o1-mini | 90.0% | 8,000トークン | $0.12 |
| o1-preview | 94.8% | 25,000トークン | $1.50 |
| o3(高計算モード) | 96.7% | 120,000トークン | $15.00 |
CoTスケーリングには2つの実装パターンがある。
外部CoT(ユーザー可視):
内部CoT(隠蔽型):
reasoning_tokens としてトークン数のみ確認可能CoTを極端に長くすると以下の問題が生じる:
対策手法:
Q1: CoTスケーリングはすべてのタスクで有効か? A: 段階的推論が有効なタスク(数学、コーディング、論理推論、計画立案)では高い効果を示す。一方、単純な事実検索や創作タスクでは効果が限定的であり、むしろ過剰な思考がノイズとなる場合がある。
Q2: CoTの長さはどう最適化すべきか? A: 問題の難易度に応じた適応的な配分が最も効率的である。簡単な問題には500トークン以下、中程度の問題には5,000トークン程度、非常に困難な問題には50,000トークン以上を目安とする。OpenAI o3はこの適応的配分を内部で自動化している。
Q3: オープンソースモデルでCoTスケーリングを実現するには? A: DeepSeek-R1(MIT License)が最も成熟した選択肢である。Qwen QwQ-32B-Previewも外部CoTを生成可能。vLLMやSGLangを推論エンジンとして使い、推論トークン数の上限を設定パラメータで調整できる。