LLMが回答を生成する際に、情報の出典や参照元を明示的に付与する技術。ハルシネーション対策として注目され、学術論文・ニュース記事・公式ドキュメントなどのソースURLや文献情報を回答に埋め込むことで、出力の信頼性と検証可能性を向上させる。
LLM引用生成(LLM Citation Generation)は、大規模言語モデルが生成するテキストに対して、情報の出典元を自動的に付与する技術体系である。従来のLLMは「もっともらしいが根拠不明な回答」を生成する傾向があり、これがハルシネーション問題の根源となっていた。引用生成はこの課題に対する構造的な解決策として、2024年以降のLLMプロダクトで急速に標準化が進んでいる。
Google の Gemini、Perplexity AI、Microsoft Copilot、OpenAI の ChatGPT with Browsing など、主要なLLMサービスが引用機能を実装済みである。
最も広く採用されているアプローチ。外部知識ベースから関連ドキュメントを検索し、そのコンテキストを参照しながら回答を生成する。検索元のドキュメントIDやURLをそのまま引用として紐づけられる点が利点。
LLMがまず引用なしで回答を生成し、生成後に別のモジュールが各主張に対応するソースを検索・付与する方式。生成品質を犠牲にせず引用を追加できるが、生成内容とソースの整合性が保証されない場合がある。
引用付きデータセット(Wikipedia脚注、学術論文の参考文献リスト等)で言語モデルを学習させ、引用を含む出力を直接生成させるアプローチ。Meta の ATLAS、Anthropic の Constitutional AI with Citations などの研究で成果が報告されている。
| フォーマット | 表示例 | 採用サービス | 特徴 |
|---|---|---|---|
| インライン番号 | 回答文[1][2] | Perplexity AI, You.com | 学術論文スタイル、文中の該当箇所が明確 |
| 脚注リンク | 回答文¹ → 脚注URL | Google Gemini |
| 読みやすさ重視、長い回答向き |
| サイドバー表示 | 回答 + 右パネルにソース一覧 | Microsoft Copilot | UI空間を活用、一覧性が高い |
| インラインリンク | ソース名 形式 | ChatGPT with Browsing | Markdown互換、コピペしやすい |
| ハイライト引用 | ソース文のハイライト付き | Perplexity Pro | 原文の該当箇所を視覚的に示す |
引用生成の品質は以下の指標で定量評価される。
付与された引用のうち、実際に回答内容を裏付けているものの割合。不必要な引用や無関係な引用が多いとスコアが下がる。
回答中の検証可能な主張のうち、適切な引用が付与されている割合。引用の抜け漏れを測定する。
引用先のソースが、回答の該当部分の内容を正確に支持しているかの度合い。ソースに書かれていない内容を引用として紐づけている場合にペナルティとなる。
Attributable to Identified Sources in Language Evaluation の略。Stanford NLP が提案した引用品質の標準ベンチマークで、Citation Precision/Recall/F1 を統合的に評価する。
| サービス | 引用方式 | ソース範囲 | リアルタイム検索 | 引用数/回答 |
|---|---|---|---|---|
| Perplexity AI | インライン番号 | Web全体 | あり | 5〜20件 |
| Google Gemini | 脚注リンク | Google検索 | あり | 3〜10件 |
| ChatGPT (Browsing) | インラインリンク | Bing検索 | あり | 3〜8件 |
| Microsoft Copilot | サイドバー | Bing検索 + Enterprise | あり | 5〜15件 |
| Claude (Anthropic) | なし(2026年時点) | - | なし | - |
| You.com | インライン番号 | Web + 学術DB | あり | 5〜15件 |
LLMが実在しないURLや論文タイトルを引用として生成する現象。RAGベースのアプローチでは検索結果から引用するため発生しにくいが、Fine-tuningベースでは依然として課題。対策として Citation Verification(引用検証)パイプラインの導入が進んでいる。
長いドキュメントから数行を引用する場合、どの範囲を「引用元」とするかの粒度設定が難しい。粒度が粗いと検証コストが高く、細かすぎると文脈が失われる。
引用元コンテンツの著作権処理が未整備。特にニュース記事やペイウォール内のコンテンツを引用する場合、フェアユースの範囲が議論されている。
A1: RAGは外部知識を検索して回答生成に使う技術全般。引用生成はRAGの出力側で「どのソースから情報を得たか」を明示する機能。RAGなしの引用生成(Post-hoc Attribution)も存在するため、RAG⊃引用生成ではない。
A2: 必ずしもそうではない。引用先のソース自体が誤っている場合や、ソースの内容を曲解して引用している場合がある。引用は検証の出発点であり、正確性の保証ではない。Citation Verification で引用の妥当性を検証するステップが別途必要。
A3: 最も実装が容易なのはチャンクレベル引用。検索で取得した各チャンクにメタデータ(ソースURL、ページ番号、取得日時)を付与し、LLMへのプロンプトで「回答に引用番号を含めよ」と指示する。LangChain の CitationQA Chain や LlamaIndex の CitationQueryEngine が実装済みモジュールとして利用可能。