Chain-of-Thoughtスケーリングとは？（チェインオブソートスケーリング）わかりやすく解説

Q: Chain-of-Thoughtスケーリングとは？

LLMのChain-of-Thought（思考連鎖）推論において、思考ステップの長さや深さを拡大することで推論精度を向上させる手法。推論トークン数を増やすことで、より複雑な問題への対応力が飛躍的に高まることが実証されている。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Chain-of-Thoughtスケーリングとは？（チェインオブソートスケーリング）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

CoTスケーリングの発展史

Chain-of-Thoughtの概念は段階的に発展してきた。

時期	マイルストーン	手法	推論トークン数
2022年1月	CoTプロンプティング提案（Wei et al.）	Few-shot CoT	50〜200トークン
2022年3月	Zero-shot CoT（「Let's think step by step」）	ゼロショット	100〜500トークン
2023年5月	Tree-of-Thought（Yao et al.）	分岐探索	500〜5,000トークン
2024年9月	OpenAI o1リリース	内部CoTスケーリング	5,000〜50,000トークン
2025年1月	DeepSeek-R1	強化学習ベースCoT	10,000〜100,000トークン
2025年4月	OpenAI o3	適応的CoTスケーリング	最大200,000トークン

スケーリング法則と性能曲線

CoTのスケーリングにはべき乗則（Power Law）が観察されている。推論トークン数を$N$とすると、特定のベンチマークスコア$S$は概ね以下の関係を示す：

推論トークン数を2倍にすると、数学的推論のスコアは約5〜15%向上する
ただし収穫逓減が生じ、ある閾値を超えると追加トークンの効果は急激に低下する
最適な推論長は問題の難易度に強く依存する

具体的なベンチマーク結果：

モデル	MATH (Pass@1)	推論トークン数（中央値）	コスト/問題
GPT-4（通常推論）	52.9%	200トークン	$0.01
GPT-4 + CoTプロンプト	67.2%	800トークン	$0.04
o1-mini	90.0%	8,000トークン	$0.12
o1-preview	94.8%	25,000トークン	$1.50
o3（高計算モード）	96.7%	120,000トークン	$15.00

内部CoT vs 外部CoT

CoTスケーリングには2つの実装パターンがある。

外部CoT（ユーザー可視）:

モデルの出力としてCoTが直接表示される
ユーザーが思考過程を検証できる
DeepSeek-R1、Qwen QwQ がこの方式を採用
トークン課金が推論プロセス全体に発生する

内部CoT（隠蔽型）:

モデル内部でCoTが生成されるがユーザーには非表示
OpenAI o1/o3 がこの方式を採用
APIでは reasoning_tokens としてトークン数のみ確認可能
思考過程のブラックボックス化による検証困難性が課題

長文CoTの課題と対策

CoTを極端に長くすると以下の問題が生じる：

思考の堂々巡り（Rumination）: 同じ推論パスを繰り返し探索して収束しない
矛盾の蓄積: 長い推論チェーンの中で前半と後半で矛盾する結論に到達する
計算コストの爆発: 推論トークン数に比例してレイテンシとコストが増大する
KVキャッシュの肥大化: 長いCoTはGPUメモリを大量に消費する

対策手法：

思考の要約（Thought Summarization）: 中間ステップを定期的に要約してコンテキストを圧縮
Early Stopping: 確信度が閾値を超えた時点で推論を打ち切る
Selective CoT: 問題の難易度を事前分類し、簡単な問題にはCoTを省略する
Token Budget制約: 推論トークン数に上限を設けてコストを管理する

よくある質問（FAQ）

Q1: CoTスケーリングはすべてのタスクで有効か？ A: 段階的推論が有効なタスク（数学、コーディング、論理推論、計画立案）では高い効果を示す。一方、単純な事実検索や創作タスクでは効果が限定的であり、むしろ過剰な思考がノイズとなる場合がある。

Q2: CoTの長さはどう最適化すべきか？ A: 問題の難易度に応じた適応的な配分が最も効率的である。簡単な問題には500トークン以下、中程度の問題には5,000トークン程度、非常に困難な問題には50,000トークン以上を目安とする。OpenAI o3はこの適応的配分を内部で自動化している。

Q3: オープンソースモデルでCoTスケーリングを実現するには？ A: DeepSeek-R1（MIT License）が最も成熟した選択肢である。Qwen QwQ-32B-Previewも外部CoTを生成可能。vLLMやSGLangを推論エンジンとして使い、推論トークン数の上限を設定パラメータで調整できる。

まとめ

CoTスケーリングは推論トークン数を増やすことでLLMの推論精度を系統的に向上させる手法である
推論トークン数と性能の間にはべき乗則が成り立ち、収穫逓減も観察される
内部CoT（o1/o3）と外部CoT（DeepSeek-R1）の2つの実装パターンがある
長文CoTの堂々巡りや矛盾蓄積には思考要約やEarly Stoppingで対処する
問題の難易度に応じた適応的な推論長配分が費用対効果の鍵である

メニュー

Chain-of-Thoughtスケーリング（チェインオブソートスケーリング）

メニュー

Chain-of-Thoughtスケーリング（チェインオブソートスケーリング）

この用語に関連するコンテンツ