Self-Consistencyベンチマークとは？（セルフコンシステンシーベンチマーク）わかりやすく解説

Q: Self-Consistencyベンチマークとは？

Self-Consistencyベンチマークとは、Self-Consistency手法の性能を評価するために使用される標準的なベンチマークスイートおよびその評価結果を指す。GSM8K（小学校算数）、SVAMP（算術文章題）、AQuA（代数推論）、StrategyQA（多段階常識推論）、ARC（科学推論）等が代表的であり、Wang et al.（2022）の原論文以降、GPT-4、Claude、PaLM、LLaMA等の主要モデルでSelf-Consistencyの効果が広く検証されている。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Self-Consistencyベンチマークとは？（セルフコンシステンシーベンチマーク）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

Self-Consistencyの評価体系

Self-Consistency手法の性能評価は、主に算術推論・常識推論・記号推論の3カテゴリのベンチマークで行われる。Wang et al.（2022）の原論文ではPaLM-540B、GPT-3（code-davinci-002）、LaMDA-137B、UL2-20Bの4モデルに対して7つのベンチマークで評価が実施され、すべてのモデル×ベンチマークの組み合わせでSelf-Consistencyによる改善が確認された。

Self-Consistencyの評価では、以下のメトリクスが標準的に使用される。

メトリクス	定義	用途
正答率（Accuracy）	正解数 / 全問題数	全ベンチマーク共通
改善幅（Δ）	SC精度 − CoT greedy精度	効果の定量化
コスト効率	Δ / サンプル数n	費用対効果の評価
収束速度	精度がプラトーに達するn	最適サンプル数の決定
確信度	多数決の最頻回答比率	回答の信頼性推定

主要ベンチマーク詳細

GSM8K（Grade School Math 8K）

GSM8Kは8,500問の小学校レベル算術文章題で構成されるベンチマークである（Cobbe et al., 2021）。2〜8ステップの算術推論を要し、Self-Consistencyの代表的な評価対象として最も広く使用されている。

モデル	CoT Greedy	SC（n=10）	SC（n=40）	改善幅（n=40）
PaLM-540B	56.5%	72.8%	74.4%	+17.9%
GPT-3（code-davinci-002）	65.6%	78.0%	78.7%	+13.1%
GPT-4	92.0%	95.3%	95.6%	+3.6%
GPT-4o	94.2%	96.8%

モデル	CoT Greedy	SC（n=10）	改善幅
PaLM-540B	79.0%	88.5%	+9.5%
GPT-3（code-davinci-002）	74.8%	86.0%	+11.2%
GPT-4	93.1%	96.2%	+3.1%
LLaMA-2 70B	68.5%	78.3%	+9.8%

モデル	CoT Greedy	SC（n=10）	SC（n=40）	改善幅（n=40）
PaLM-540B	35.8%	44.9%	48.0%	+12.2%
GPT-3（code-davinci-002）	45.3%	55.4%	57.8%	+12.5%
GPT-4	79.5%	85.6%	86.2%	+6.7%
LLaMA-3 70B	62.4%	71.8%	73.5%	+11.1%

モデル	CoT Greedy	SC（n=10）	改善幅
PaLM-540B	73.4%	80.2%	+6.8%
GPT-3（code-davinci-002）	73.0%	79.8%	+6.8%
GPT-4	85.2%	89.7%	+4.5%
Claude 3.5 Sonnet	87.3%	91.0%	+3.7%

モデル	CoT Greedy	SC（n=10）	改善幅
PaLM-540B	85.2%	89.3%	+4.1%
GPT-4	96.3%	97.8%	+1.5%
Claude 3.5 Sonnet	96.7%	98.0%	+1.3%
LLaMA-3 70B	88.4%	92.6%	+4.2%

設定	GSM8K（PaLM-540B）	SVAMP（PaLM-540B）	備考
Zero-shot CoT（greedy）	43.0%	63.2%	ベースライン
Zero-shot CoT + SC（n=10）	61.5%	75.8%	+18.5% / +12.6%
Few-shot CoT（greedy）	56.5%	79.0%	ベースライン
Few-shot CoT + SC（n=10）	72.8%	88.5%	+16.3% / +9.5%

モデル	パラメータ数	GSM8K CoT Greedy	GSM8K SC（n=10）	改善幅	改善率
UL2	20B	32.1%	42.3%	+10.2%	+31.8%
LaMDA	137B	42.5%	55.8%	+13.3%	+31.3%
LLaMA-2	70B	56.8%	68.4%	+11.6%	+20.4%
PaLM	540B	56.5%	72.8%	+16.3%	+28.8%
GPT-4	~1.8T（推定）	92.0%	95.3%	+3.3%	+3.6%

モデル	GSM8K Greedy	GSM8K SC（n=10）	エラー削減率
GPT-4o	94.2%	96.8%	44.8%
Claude 3.5 Sonnet	96.4%	97.8%	38.9%
Gemini 1.5 Pro	90.8%	94.1%	35.9%
LLaMA-3 70B	83.0%	89.2%	36.5%

推論ステップ数	CoT Greedy	SC（n=10）	改善幅
2ステップ	78.3%	87.2%	+8.9%
3〜4ステップ	61.5%	76.0%	+14.5%
5〜6ステップ	45.2%	64.8%	+19.6%
7〜8ステップ	32.0%	52.3%	+20.3%

手法の組み合わせ	GSM8K精度	備考
CoT Greedy（ベースライン）	56.5%	標準CoT
Self-Consistency（n=10）	72.8%	本手法
CoT + Verifier	68.0%	Cobbe et al.
SC + Verifier	78.2%	併用
SC + Progressive Hint	76.5%	Zheng et al.
SC + Complex CoT	79.0%	Fu et al.
SC + PHP（Progressive Hint Prompting）	80.3%	最新併用結果
SC + Verifier + Complex CoT	82.1%	全部盛り

メニュー

Self-Consistencyベンチマーク（セルフコンシステンシーベンチマーク）

メニュー

Self-Consistencyベンチマーク（セルフコンシステンシーベンチマーク）

この用語に関連するコンテンツ

Self-Consistencyの評価体系

主要ベンチマーク詳細

GSM8K（Grade School Math 8K）

SVAMP（Simple Variations on Arithmetic Math word Problems）

AQuA（Algebra Question Answering）

StrategyQA（多段階常識推論）

ARC-challenge（AI2 Reasoning Challenge）

Few-shot vs Zero-shot Self-Consistency

モデルサイズと Self-Consistency効果の関係

最新モデルでのSelf-Consistency効果

難易度別の効果分析

他の推論強化手法との組み合わせ

よくある質問

Q1: Self-Consistencyが最も効果的なベンチマークはどれですか？

Q2: 最新の高精度モデルでもSelf-Consistencyを使う価値はありますか？

Q3: Self-Consistencyの効果が期待できないタスクはありますか？

Q4: ベンチマーク結果を実際のプロダクションに適用する際の注意点は？

関連用語