LLM が Chain-of-Thought や内部推論で生成する中間的な思考過程のテキスト出力。推論の透明性・デバッグ・品質評価に使用され、o1/o3 では非公開、DeepSeek-R1 では公開される。
Reasoning Trace(推論トレース)は、LLM が問題を解く際に生成する中間的な思考ステップの記録である。Chain-of-Thought プロンプティングで出力される推論過程、OpenAI o1/o3 の内部推論トークン、DeepSeek-R1 の <think> タグ内テキストなど、モデルの「考える過程」全般を指す。
| モデル/手法 | トレースの可視性 | 形式 | 課金対象 |
|---|---|---|---|
| CoT プロンプティング | 完全公開 | 通常テキスト | はい |
| OpenAI o1/o3 | サマリのみ公開 | 内部トークン(非公開) | はい |
| Anthropic Extended Thinking | 開発中に部分公開 | thinking ブロック | はい |
| DeepSeek-R1 | 完全公開 | <think>...</think> | はい |
| Qwen QwQ | 完全公開 | 通常テキスト | はい |
典型的な Reasoning Trace は以下の要素で構成される。
最初に問題を理解し、サブ問題に分解する。
各サブ問題に対して複数の仮説やアプローチを検討する。
仮説を検証し、誤りがあれば自己修正する。「あ、待って、これは間違いだ」「もう一度確認すると...」といった自己修正パターンが特徴的。
各サブ問題の結果を統合して最終回答を導出する。
DeepSeek-R1 は <think> タグで推論過程を公開する:
<think>
ユーザーは 17 × 24 を計算したいようだ。
まず 17 × 20 = 340 を計算する。
次に 17 × 4 = 68 を計算する。
340 + 68 = 408。
検算: 408 / 17 = 24。正しい。
</think>
17 × 24 = 408 です。
この透明な推論過程により、ユーザーは回答の信頼性を自分で判断できる。
推論トレースを分析することで、モデルがどこで誤ったかを特定できる。これは「回答だけ見ても間違いの原因がわからない」問題を解決する。
推論トレースは「解法の解説」として機能し、学生が問題の解き方を学ぶ教材になる。特に数学やプログラミングの学習で有効。
回答の正誤だけでなく、推論の各ステップを評価する Process Reward Model(PRM)のトレーニングデータとして使用される。OpenAI の PRM800K データセットは数学問題の推論ステップごとにラベル付けされている。
大規模モデルの推論トレースを小型モデルの学習データとして使用する。DeepSeek-R1 の推論トレースから Qwen 32B や Llama 70B に推論能力を蒸留する研究が進んでいる。
推論トレースは出力トークンとして課金されるため、コストが増加する。
| モデル | 通常回答のトークン | 推論トレース込み | コスト比 |
|---|---|---|---|
| GPT-4o (標準) | 100-300 | 100-300 | 1x |
| o1 (推論モード) | 100-300 | 1,000-10,000 | 5-30x |
| DeepSeek-R1 | 100-300 | 500-5,000 | 3-15x |
o1 では推論トークンの出力単価が通常トークンより低く設定されているが、それでも総コストは数倍〜数十倍になる。
| 立場 | 主張 | 代表 |
|---|---|---|
| 公開派 | 透明性・検証可能性・教育価値 | DeepSeek-R1, Qwen QwQ |
| 非公開派 | 知的財産保護・UX 簡素化・悪用防止 | OpenAI o1/o3 |
OpenAI は「推論トレースを公開するとプロンプトインジェクション攻撃の手がかりになる」と主張し、o1/o3 の推論トークンを隠蔽している。一方 DeepSeek は「透明性がユーザーの信頼を高める」として全公開を選択した。
A1: いいえ。LLM は「もっともらしいが誤った推論」を生成することがある(Unfaithful Reasoning)。正しい答えに至る偽の推論や、論理的な推論で誤った答えに至るケースが報告されている。推論トレースは参考情報として扱い、重要な判断では独立に検証すべき。
A2: o1/o3 では推論トークンは生成されるが表示されないだけであり、課金は発生する。推論自体を省略して(通常の GPT-4o として使って)コスト削減は可能だが、推論精度は低下する。
A3: 問題の難易度に比例する。簡単な算術では 50〜200 トークン、数学オリンピック級の問題では 5,000〜20,000 トークンに達する。o1 pro では特に難しい問題で 100,000 トークン超の推論トレースが生成されることもある。