Verbalized Confidenceとは？（バーバライズドコンフィデンス）わかりやすく解説

Q: Verbalized Confidenceとは？

Verbalized Confidence（言語化された確信度）とは、LLMに対して自身の回答への確信度を自然言語で表現させるアプローチであり、logitやトークン確率へのアクセスが不要なブラックボックス校正手法である。プロンプトで確信度を明示的に質問するか推論プロセス中に不確実性を言語化させることでAPIベースのクローズドモデルでも信頼度情報を取得できる。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Verbalized Confidenceとは？（バーバライズドコンフィデンス）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

言語化の方法論

Verbalized Confidenceの実装には主に4つのアプローチが存在する。

1. 直接数値質問（Direct Numerical Elicitation）

回答生成後に確信度を数値で尋ねるシンプルなアプローチ。

System: 回答後にその回答への確信度を0〜100%の数値で表明してください。

User: 日本で最も高い山は何ですか？
Assistant: 富士山です。標高3,776mで日本最高峰です。

確信度: 99%

2. スケール質問（Likert Scale Elicitation）

数値ではなく定性的なスケールで確信度を表現させる。

スケール	数値マッピング	説明
確実	95-100%	疑いの余地がほぼない
非常に自信がある	85-94%	高い確信を持っている
やや自信がある	70-84%	概ね正しいと思う
半々	45-69%	正しいかどうか不確実
あまり自信がない

def self_consistency_confidence(client, prompt, n_samples=10):
    responses = []
    for _ in range(n_samples):
        resp = client.chat.completions.create(
            model="gpt-4o",
            messages=[{"role": "user", "content": prompt}],
            temperature=0.7
        )
        responses.append(resp.choices[0].message.content.strip())
    from collections import Counter
    counts = Counter(responses)
    most_common_answer, most_common_count = counts.most_common(1)[0]
    confidence = most_common_count / n_samples
    return {"answer": most_common_answer, "confidence": confidence, "samples": n_samples}

手法	ECE	MCE	AUROC	必要なAPI呼び出し数
Temperature Scaling（logprobs）	0.04	0.12	0.89	1回
直接数値質問	0.12	0.28	0.78	1回
スケール質問	0.14	0.31	0.75	1回
CoT校正	0.09	0.21	0.83	1回
自己一貫性（10回）	0.06	0.15	0.87	10回
自己一貫性（20回）	0.05	0.13	0.88	20回
CoT + 自己一貫性（5回）	0.06	0.16	0.86	5回

メニュー

Verbalized Confidence（バーバライズドコンフィデンス）

メニュー

Verbalized Confidence（バーバライズドコンフィデンス）

この用語に関連するコンテンツ

Verbalized Confidenceとは

言語化の方法論

1. 直接数値質問（Direct Numerical Elicitation）

2. スケール質問（Likert Scale Elicitation）

3. Chain-of-Thought校正（CoT Calibration）

4. 自己一貫性ベース（Self-Consistency Based）

校正品質の評価

プロンプト設計のベストプラクティス

限界と課題

Sycophancy（迎合性）問題

数値粒度の偏り

モデル間の一貫性

よくある質問（FAQ）

Q1: logprobsが利用可能なモデルでもVerbalized Confidenceは有用ですか？

Q2: Verbalized Confidenceのコスト効率は？

Q3: Verbalized Confidenceは多言語対応していますか？

関連用語