LLM投機的推論プロセスとは、仮説生成・自己検証・合意選択の3段階から成る推論手順である。モデルが複数の解答候補を生成し、論理的整合性を内部評価した上で最終回答を決定する一連のパイプラインを指す。
LLM投機的推論プロセスは、大規模言語モデルが1つの質問に対して複数の推論パスを展開し、それぞれを評価・選別して最終回答に至るまでの具体的な処理手順を指す。このプロセスは仮説生成、自己検証、合意選択の3つのフェーズで構成される。
最初のフェーズでは、モデルが同一プロンプトに対して複数の推論チェーンを生成する。主な生成方法は以下の3つである:
OpenAI o1では内部的にN=64の推論パスを生成するケースがあり、o3ではN=256まで拡張可能であることが推定されている。DeepSeek R1は公開論文で8パスのBeam Searchを標準設定としている。
生成された各推論パスの品質を評価するフェーズである。検証方法は3つに大別される:
| フレームワーク | 仮説生成方式 | 検証方式 | パス数 | 計算効率 | 主な用途 |
|---|---|---|---|---|---|
| Self-Consistency | 温度サンプリング | 多数決 | 5-40 | 高 | 汎用 |
| Universal Self-Consistency | 自由形式サンプリング | LLM判定 | 5-20 | 中 | 自由記述 |
| Tree-of-Thought | 段階的分岐 | ヒューリスティック | 可変 | 低 | パズル・計画 |
| Graph-of-Thought | グラフ構造展開 | 統合評価 | 可変 | 低 | 複合推論 |
| MCTS + LLM | モンテカルロ探索 | シミュレーション | 100+ | 最低 | 数学証明 |
複数の検証済み推論パスから最終回答を決定するフェーズである:
LangChainやDSPyなどのフレームワークでは、投機的推論プロセスを容易に構築できるモジュールが提供されている:
RunnableParallelで複数パスを並列実行し、カスタム関数で合意選択を行うdspy.ChainOfThoughtを複数インスタンス化し、dspy.majorityで多数決集約best_ofパラメータでN個生成して最高スコアを返すQ1: 仮説生成のパス数はいくつが最適ですか? A: タスク難易度とコスト許容度による。簡単な質問応答では3-5パスで十分、数学的推論では10-20パス、証明問題では100パス以上が有効。Self-Consistencyの原論文では40パスで精度が飽和することが示されている。
Q2: 自己検証でPRMとORMのどちらを使うべきですか? A: 推論のどのステップで間違いやすいかを特定したい場合はPRMが有効。最終回答の正誤だけ判定できればよい場合はORMが計算効率が高い。OpenAIの研究では、PRMがORMを一貫して上回ることが示されている。
Q3: オープンソースモデルでProcess Reward Modelは利用できますか? A: Math-Shepherd(MetaMath由来)、Qwen2.5-Math-PRM-7B、Skywork-PRM-1.5Bなどが公開されている。Hugging Faceから直接ダウンロード可能で、vLLMやHugging Face Transformersで利用できる。