LLM引用生成(Citation Generation)とは、大規模言語モデルが回答を生成する際に、各主張や事実に対して出典情報(引用元URL、文書名、段落番号等)を自動的に付与する技術である。Attributable LLM、Attributed QA等とも呼ばれ、ALCE(Automatic LLMs' Citation Evaluation)ベンチマークにより引用精度が定量評価される。
LLM引用生成は、LLMの応答に出典情報を明示的に紐付ける技術であり、ユーザーが回答の根拠を検証可能にすることで信頼性を向上させる。2024年以降、企業向けLLMアプリケーションでは「根拠のない回答は許容されない」という要件が一般化し、引用生成は必須機能として位置づけられている。
引用生成には主に3つのアプローチがある:
| 指標 | 定義 | 計算方法 |
|---|---|---|
| Citation Precision | 引用された出典が実際に主張を裏付ける割合 | 正確な引用数 / 全引用数 |
| Citation Recall | 裏付けが必要な主張のうち引用が付いている割合 | 引用付き主張数 / 全主張数 |
| Citation F1 | PrecisionとRecallの調和平均 | 2PR / (P+R) |
| Fluency | 引用マーカーを含む文の自然さ | 人間評価(1〜5スケール) |
ALCEベンチマークでの各モデルの性能(2025年時点):
| モデル | ASQA Citation F1 | QAMPARI Citation Recall | ELI5 Citation Precision |
|---|---|---|---|
| GPT-4 Turbo | 67.2% | 48.3% | 72.1% |
| Claude 3.5 Sonnet | 65.8% | 46.7% | 70.5% |
| Gemini 1.5 Pro | 63.4% | 44.2% | 68.3% |
| Llama 3.1 70B | 55.1% | 38.6% | 61.2% |
| Mistral Large | 58.7% | 41.3% | 64.8% |
1. ユーザークエリを受信
2. ベクトルDBで関連ドキュメントをtop-5検索
3. 各ドキュメントにID([1]〜[5])を付与
4. LLMプロンプト: 「以下の情報源を参照し、引用マーカー[1]等を付けて回答してください」
5. 生成結果: 「LLMの精度は約73%です[1]。これはGPT-4の場合で[2]...」
6. 引用マーカーとドキュメントIDのマッピングをレスポンスに含める
生成後にNLI(Natural Language Inference)モデルで各文と出典の含意関係を判定:
NLIモデルにはDeBERTa-v3-large(精度91.3%)やFlan-T5-XXL(精度89.7%)が使用される。
Q1: 引用生成は全ての応答に必要ですか? A: 事実に基づく主張(数値、日付、固有名詞等)には引用が必要だが、一般的な常識や定義的な説明には不要である。実装では、NLIモデルで「検証可能な主張」を自動分類し、必要な箇所のみ引用を付与するのが効率的。
Q2: 引用の正確性をどう保証しますか? A: 生成後にNLIモデルで出典と主張の含意関係を検証する。Citation Precisionが80%以上であれば実用レベルとされる。さらに、ユーザーフィードバック(引用が正しかったか)を収集して継続的に改善する仕組みが推奨される。
Q3: 引用生成はレイテンシにどの程度影響しますか? A: インライン引用方式ではRAGと同等の追加レイテンシ(200〜500ms)。Post-hoc帰属方式ではNLI判定に追加で100〜300msが必要。合計でも1秒以内に収まるため、ストリーミング出力と組み合わせれば体感的な影響は軽微。