LLMが生成した回答の各主張に対して、根拠となった情報源を特定・提示する技術で、出力の透明性と検証可能性を確保するための仕組み。
LLMアトリビューション(Attribution)は、AIが生成した文章の各部分がどの情報源に基づいているかを明示する技術です。「この回答はどこから来たのか」をユーザーが検証できるようにすることで、LLMの出力に対する信頼性を構造的に担保します。
2025年以降、Perplexity AI・Google Gemini・Anthropic Claude がそれぞれ異なるアプローチでアトリビューション機能を強化しており、出典付き回答が AI アシスタントの標準機能になりつつあります。
回答文中に [1] [2] のような番号付き引用を挿入し、末尾に出典一覧を記載する方式です。Perplexity AI が代表例で、学術論文の引用スタイルに近い UX を提供します。
LLMのハルシネーション率は、RAGを適用すると平均40%低減します[1]。
特にドメイン特化型のナレッジベースを使用した場合、
専門分野での正確性が85%以上に達することが報告されています[2]。
[1] "Reducing Hallucination in LLMs via RAG", ArXiv 2024
[2] "Domain-Specific Knowledge Bases for LLM Grounding", ACL 2025
回答を文またはパラグラフ単位で分割し、各セグメントに対応する参照ドキュメントのチャンクをハイライト表示する方式です。
groundingMetadata.groundingChunks に各回答セグメントの出典を格納回答生成後に別のモデルやシステムが各主張を検証し、裏付けの有無をスコアリングする方式です。
| ツール | 方式 | 出力 |
|---|---|---|
| RAGAS Faithfulness | NLIモデルで各claim をcontext と照合 | 0.0〜1.0 のスコア |
| Galileo Luna | 分類モデルで hallucination 確率を推定 | Supported / Not Supported |
| Vectara HHEM | Cross-encoder で factual consistency を判定 | 0.0〜1.0 のスコア |
| TruLens | LLM-as-a-judge で groundedness を評価 | 0.0〜1.0 + 理由 |
「文単位」と「主張(claim)単位」では、後者のほうが正確ですが計算コストが高くなります。1つの文に複数の主張が含まれる場合、文単位の帰属では不十分です。
LLMが情報源の内容を言い換えて出力した場合、表層的なテキスト一致では帰属先を特定できません。意味的類似性(セマンティックマッチング)が必要です。
LLMが複数のドキュメントから情報を統合して1つの文を生成した場合、帰属先は複数になります。どの情報源がどの程度寄与したかの定量化は未解決問題です。
グラウンディングで提供したコンテキスト外の知識をLLMが使用した場合、その部分の帰属先は存在しません。この「帰属不能な主張」を検出する仕組みが必要です。
| プラットフォーム | アトリビューション方式 | API対応 | 利用開始年 |
|---|---|---|---|
| Perplexity AI | インライン引用 + 出典URL | ○ | 2023 |
| Google Gemini | groundingMetadata | ○ | 2024 |
| Anthropic Claude | citations API(β) | ○ | 2025 |
| Microsoft Copilot | インライン引用 + サイドパネル | △ | 2023 |
| OpenAI ChatGPT | Web browsing 時のみ | △ | 2023 |
RAGは外部情報を取得してLLMのコンテキストに注入する技術、アトリビューションは生成された回答と情報源の対応関係を提示する技術です。RAGがインプット側の改善なら、アトリビューションはアウトプット側の検証です。
Perplexity AI の引用精度は 2025年時点で約 70〜85%と報告されています。引用が付いていても実際には該当しない(誤帰属)、または引用が付いていないが実際には情報源がある(帰属漏れ)が発生します。
最も手軽な方法は RAGAS の Faithfulness メトリクスを事後評価に使うことです。リアルタイムで引用を付ける場合は、LLMに「各主張の後に[出典番号]を付けて」とプロンプトで指示する方法が広く使われています。