Self-Consistencyベンチマークとは、Self-Consistency手法の性能を評価するために使用される標準的なベンチマークスイートおよびその評価結果を指す。GSM8K(小学校算数)、SVAMP(算術文章題)、AQuA(代数推論)、StrategyQA(多段階常識推論)、ARC(科学推論)等が代表的であり、Wang et al.(2022)の原論文以降、GPT-4、Claude、PaLM、LLaMA等の主要モデルでSelf-Consistencyの効果が広く検証されている。
Self-Consistency手法の性能評価は、主に算術推論・常識推論・記号推論の3カテゴリのベンチマークで行われる。Wang et al.(2022)の原論文ではPaLM-540B、GPT-3(code-davinci-002)、LaMDA-137B、UL2-20Bの4モデルに対して7つのベンチマークで評価が実施され、すべてのモデル×ベンチマークの組み合わせでSelf-Consistencyによる改善が確認された。
Self-Consistencyの評価では、以下のメトリクスが標準的に使用される。
| メトリクス | 定義 | 用途 |
|---|---|---|
| 正答率(Accuracy) | 正解数 / 全問題数 | 全ベンチマーク共通 |
| 改善幅(Δ) | SC精度 − CoT greedy精度 | 効果の定量化 |
| コスト効率 | Δ / サンプル数n | 費用対効果の評価 |
| 収束速度 | 精度がプラトーに達するn | 最適サンプル数の決定 |
| 確信度 | 多数決の最頻回答比率 | 回答の信頼性推定 |
GSM8Kは8,500問の小学校レベル算術文章題で構成されるベンチマークである(Cobbe et al., 2021)。2〜8ステップの算術推論を要し、Self-Consistencyの代表的な評価対象として最も広く使用されている。
| モデル | CoT Greedy | SC(n=10) | SC(n=40) | 改善幅(n=40) |
|---|---|---|---|---|
| PaLM-540B | 56.5% | 72.8% | 74.4% | +17.9% |
| GPT-3(code-davinci-002) | 65.6% | 78.0% | 78.7% | +13.1% |
| GPT-4 | 92.0% | 95.3% | 95.6% | +3.6% |
| GPT-4o | 94.2% | 96.8% |
| 97.1% |
| +2.9% |
| Claude 3.5 Sonnet | 96.4% | 97.8% | 98.0% | +1.6% |
| LLaMA-2 70B | 56.8% | 68.4% | 70.1% | +13.3% |
| LLaMA-3 70B | 83.0% | 89.2% | 90.5% | +7.5% |
| Gemini 1.5 Pro | 90.8% | 94.1% | 94.5% | +3.7% |
興味深い傾向として、ベースラインの精度が高いモデルほどSelf-Consistencyによる改善幅が小さい。これはベースライン精度が高いモデルではgreedy decodingでも正しい推論パスを選択する確率が高く、Self-Consistencyによる「補正」の余地が少ないためである。逆に、中程度の精度のモデル(50〜80%)でSelf-Consistencyの効果が最大化される。
SVAMPは算術文章題のロバスト性評価ベンチマークであり、表面的なパターンマッチでは解けないように設計されている。
| モデル | CoT Greedy | SC(n=10) | 改善幅 |
|---|---|---|---|
| PaLM-540B | 79.0% | 88.5% | +9.5% |
| GPT-3(code-davinci-002) | 74.8% | 86.0% | +11.2% |
| GPT-4 | 93.1% | 96.2% | +3.1% |
| LLaMA-2 70B | 68.5% | 78.3% | +9.8% |
AQuAは代数的推論を要求する多肢選択問題集であり、中学〜高校レベルの代数が含まれる。5つの選択肢(A〜E)から正解を選択する形式。
| モデル | CoT Greedy | SC(n=10) | SC(n=40) | 改善幅(n=40) |
|---|---|---|---|---|
| PaLM-540B | 35.8% | 44.9% | 48.0% | +12.2% |
| GPT-3(code-davinci-002) | 45.3% | 55.4% | 57.8% | +12.5% |
| GPT-4 | 79.5% | 85.6% | 86.2% | +6.7% |
| LLaMA-3 70B | 62.4% | 71.8% | 73.5% | +11.1% |
AQuAでは問題の難易度が高いため、Self-Consistencyの改善幅が比較的大きく、高性能モデルでも+6%以上の改善が見られる。これは、高難度の代数問題では正解パスの確率が相対的に低く、複数パスのサンプリングによる補正効果が顕著に現れるためである。
StrategyQAはYes/Noで回答する多段階常識推論タスクであり、複数の事実を組み合わせて暗黙的な推論ステップを経て結論に到達する必要がある。
| モデル | CoT Greedy | SC(n=10) | 改善幅 |
|---|---|---|---|
| PaLM-540B | 73.4% | 80.2% | +6.8% |
| GPT-3(code-davinci-002) | 73.0% | 79.8% | +6.8% |
| GPT-4 | 85.2% | 89.7% | +4.5% |
| Claude 3.5 Sonnet | 87.3% | 91.0% | +3.7% |
ARC-challengeは小学校〜中学校レベルの科学問題で構成される多肢選択ベンチマークであり、科学的知識と推論の組み合わせを要求する。
| モデル | CoT Greedy | SC(n=10) | 改善幅 |
|---|---|---|---|
| PaLM-540B | 85.2% | 89.3% | +4.1% |
| GPT-4 | 96.3% | 97.8% | +1.5% |
| Claude 3.5 Sonnet | 96.7% | 98.0% | +1.3% |
| LLaMA-3 70B | 88.4% | 92.6% | +4.2% |
Self-Consistencyはfew-shot CoTとzero-shot CoT(「ステップバイステップで考えてください」のみ)の両方に適用可能である。
| 設定 | GSM8K(PaLM-540B) | SVAMP(PaLM-540B) | 備考 |
|---|---|---|---|
| Zero-shot CoT(greedy) | 43.0% | 63.2% | ベースライン |
| Zero-shot CoT + SC(n=10) | 61.5% | 75.8% | +18.5% / +12.6% |
| Few-shot CoT(greedy) | 56.5% | 79.0% | ベースライン |
| Few-shot CoT + SC(n=10) | 72.8% | 88.5% | +16.3% / +9.5% |
Zero-shot CoT + Self-Consistencyの組み合わせでも、few-shot CoTのgreedy decodingを上回る精度が得られるケースがあり(GSM8K: 61.5% > 56.5%)、few-shot例題の準備コストを削減できる可能性がある。ただし、最高精度はfew-shot CoT + Self-Consistencyの組み合わせで達成される。
Self-Consistencyの効果はモデルサイズに依存するが、その関係は単純な線形ではない。
| モデル | パラメータ数 | GSM8K CoT Greedy | GSM8K SC(n=10) | 改善幅 | 改善率 |
|---|---|---|---|---|---|
| UL2 | 20B | 32.1% | 42.3% | +10.2% | +31.8% |
| LaMDA | 137B | 42.5% | 55.8% | +13.3% | +31.3% |
| LLaMA-2 | 70B | 56.8% | 68.4% | +11.6% | +20.4% |
| PaLM | 540B | 56.5% | 72.8% | +16.3% | +28.8% |
| GPT-4 | ~1.8T(推定) | 92.0% | 95.3% | +3.3% | +3.6% |
改善率(相対改善)で見ると、20Bクラスのモデルでも30%以上の相対改善が得られており、大規模モデル限定の技術ではないことがわかる。ただし、CoT自体が機能しない小規模モデル(~1B以下)ではSelf-Consistencyも効果を発揮しない。
2024〜2025年の最新モデルでは、ベースライン精度が非常に高い(GSM8K 90%+)ため、Self-Consistencyの絶対的な改善幅は縮小傾向にある。しかし、エラー削減率(error reduction rate)で評価すると依然として有意である。
| モデル | GSM8K Greedy | GSM8K SC(n=10) | エラー削減率 |
|---|---|---|---|
| GPT-4o | 94.2% | 96.8% | 44.8% |
| Claude 3.5 Sonnet | 96.4% | 97.8% | 38.9% |
| Gemini 1.5 Pro | 90.8% | 94.1% | 35.9% |
| LLaMA-3 70B | 83.0% | 89.2% | 36.5% |
エラー削減率 = (SC精度 - Greedy精度) / (100% - Greedy精度)
GPT-4oの場合、残りエラー5.8%のうち44.8%(2.6%ポイント)をSelf-Consistencyで削減できている。高精度モデルでも残存エラーの約3〜4割を追加の訓練なしで削減可能であることは実用的に重要である。
GSM8Kの問題を推論ステップ数で難易度分類した場合のSelf-Consistency効果(PaLM-540B)を示す。
| 推論ステップ数 | CoT Greedy | SC(n=10) | 改善幅 |
|---|---|---|---|
| 2ステップ | 78.3% | 87.2% | +8.9% |
| 3〜4ステップ | 61.5% | 76.0% | +14.5% |
| 5〜6ステップ | 45.2% | 64.8% | +19.6% |
| 7〜8ステップ | 32.0% | 52.3% | +20.3% |
難易度が高い(ステップ数が多い)問題ほど、Self-Consistencyの改善幅が大きい。これは、多段階推論では各ステップでのエラー蓄積が大きく、複数パスのサンプリングによるエラー分散効果がより顕著に現れるためである。
Self-Consistencyは他の推論強化手法と組み合わせることで、さらなる精度向上が可能である。
| 手法の組み合わせ | GSM8K精度 | 備考 |
|---|---|---|
| CoT Greedy(ベースライン) | 56.5% | 標準CoT |
| Self-Consistency(n=10) | 72.8% | 本手法 |
| CoT + Verifier | 68.0% | Cobbe et al. |
| SC + Verifier | 78.2% | 併用 |
| SC + Progressive Hint | 76.5% | Zheng et al. |
| SC + Complex CoT | 79.0% | Fu et al. |
| SC + PHP(Progressive Hint Prompting) | 80.3% | 最新併用結果 |
| SC + Verifier + Complex CoT | 82.1% | 全部盛り |
絶対的な改善幅ではGSM8K(+17.9%)とAQuA(+12.2%)が最大であり、多段階の算術・代数推論タスクで最も効果的である。これは、(1)推論ステップ数が多く複数経路からの収束が起きやすい、(2)回答が数値で多数決が明確に機能する、(3)ベースライン精度が中程度(50〜70%)でSelf-Consistencyの補正余地が大きい、という条件が揃うためである。
ある。GPT-4oやClaude 3.5 SonnetのGSM8K精度は94〜96%だが、Self-Consistency(n=10)により96〜98%に向上し、エラーの35〜45%を削減できる。高精度が要求されるプロダクション環境(金融計算、医療判断支援等)では、この数%の改善が重要な差異となる。コスト増はn=10でも数セント/問であり、正確性が重要な用途では費用対効果が高い。
(1)モデルのベースライン精度が50%以下の極めて困難なタスクでは、多数派の誤答に収束するリスクがある。(2)知識不足が原因のエラー(推論能力ではなく知識が欠落)では、Self-Consistencyは効果を発揮しない(何度サンプリングしても同じ知識不足による誤答を生成する)。(3)回答空間が連続的で多数決が定義しにくいタスク(数値回帰、確率推定等)では標準のSelf-Consistencyは不適であり、USCoTや区間ベースの集約が必要となる。
ベンチマークは統制された条件での評価であり、実際のプロダクション環境では以下の要因で結果が変動する。(1)プロンプトの品質:few-shot例題の質がSelf-Consistencyの効果に直接影響する、(2)問題の分布:ベンチマークの問題分布と実際のユースケースが異なる場合がある、(3)回答の正規化:実際のタスクでは回答の正規化が複雑になるケースがある(単位、フォーマット、表記揺れ等)、(4)レイテンシ制約:リアルタイムアプリケーションではn回のサンプリングに伴うレイテンシが許容範囲かを検証する必要がある。