LLMの推論フェーズにおいて追加の計算リソースを投入し、生成品質や正確性を向上させる手法の総称。訓練時の計算量(Train-Time Compute)に対し、推論時に計算を増やすことでモデルの実効性能を引き上げる考え方。
LLMテスト時計算(Test-Time Compute)とは、大規模言語モデルの推論フェーズで追加の計算資源を投入することで、出力の品質・正確性・信頼性を向上させるアプローチの総称である。従来のLLM性能向上はモデルサイズの拡大や訓練データの増量(Train-Time Compute のスケーリング)に依存していたが、2024年以降、推論時に「考える時間」を増やすことで同等以上の性能向上が得られることが実証された。
テスト時計算の概念が注目を集めたきっかけは、2024年のOpenAI o1モデルのリリースである。o1は推論時にChain-of-Thought(思考連鎖)を内部で長く展開し、数学やコーディングの問題で従来モデルを大幅に上回る性能を示した。Google DeepMindの研究論文「Scaling LLM Test-Time Compute Optimally」(2024年8月)では、テスト時計算の最適な配分戦略が理論的に分析された。
主な知見は以下の通りである:
テスト時計算を増やす手法は大きく3つのカテゴリに分類される。
| カテゴリ | 手法 | 計算コスト | 精度向上幅 | 代表例 |
|---|---|---|---|---|
| 逐次的推論拡張 | Chain-of-Thought、Tree-of-Thought | 中〜高 | 10〜40% | OpenAI o1/o3、Claude 3.5 Extended Thinking |
| 並列サンプリング | Best-of-N、Self-Consistency | 高 | 5〜25% | Anthropic Best-of-N、Google PaLM SC |
| 探索ベース |
| MCTS、Beam Search + Verifier |
| 非常に高 |
| 15〜50% |
| AlphaProof、DeepSeek-R1 |
| 指標 | 訓練時計算 (Train-Time) | テスト時計算 (Test-Time) |
|---|---|---|
| コスト発生タイミング | 一度のみ(事前学習時) | 推論ごと(リクエストごと) |
| スケーリング対象 | パラメータ数・データ量 | 推論ステップ数・サンプル数 |
| 効果の持続性 | 恒久的(モデルに固定) | 一時的(各推論で再計算) |
| 適応性 | 固定(再訓練が必要) | 動的(問題ごとに調整可能) |
| 代表的な研究 | Chinchilla Scaling Law | Scaling Test-Time Compute |
| 費用対効果 | 大規模で高効率 | 小〜中規模で高効率 |
テスト時計算の実装パターンは以下の構成要素で成り立つ:
2025年時点での主要な実装フレームワーク:
| フレームワーク | 提供元 | 対応手法 | ライセンス |
|---|---|---|---|
| vLLM | UC Berkeley | Best-of-N、Beam Search | Apache 2.0 |
| SGLang | Stanford | Tree-of-Thought、RadixAttention | Apache 2.0 |
| DeepSeek Reasoner | DeepSeek | GRPO + MCTS | MIT |
| OpenAI API | OpenAI | o1/o3 reasoning(内部実装) | プロプライエタリ |
テスト時計算はリクエストごとにコストが増大するため、以下の最適化が重要である:
OpenAI o1-miniは推論トークンあたり$3/1Mトークン(入力)で、o1-previewの$15/1Mトークンより大幅に安価であり、テスト時計算のコスト効率を重視した設計となっている。
Q1: テスト時計算を増やせば、小さなモデルでも大きなモデルに勝てるのか? A: 特定の条件下では可能である。Google DeepMindの研究では、適切なテスト時計算配分により、小さなモデルが14倍大きなモデルの1パス推論を上回るケースが確認された。ただし、基盤となるモデルの能力が一定水準以上であることが前提条件となる。
Q2: テスト時計算はどのようなタスクで最も効果的か? A: 数学的推論、コード生成、論理パズルなど、明確な正解が存在し段階的な推論が有効なタスクで最も効果的である。一方、創作文や要約など正解が一意でないタスクでは効果が限定的になる傾向がある。
Q3: テスト時計算と推論コストのトレードオフをどう管理すべきか? A: 問題の難易度に応じた適応的な計算配分が推奨される。簡単な質問には通常の1パス推論を使い、複雑な問題にのみ追加計算を投入するルーティング戦略が費用対効果に優れる。OpenAI o1-miniとo1-previewの使い分けがその実例である。