Graph RAG エンティティ抽出とは？（グラフラグエンティティチュウシュツ）わかりやすく解説

Q: Graph RAG エンティティ抽出とは？

Graph RAGにおけるエンティティ抽出とは、テキストコーパスの各チャンクからLLMを用いて固有表現（人物・組織・技術・概念等）とそれらの間の関係を構造化データとして抽出するプロセスである。NERベースの手法とLLMベースの手法を組み合わせ、共参照解決やエンティティ正規化を通じてグラフ構築の基盤を形成する。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Graph RAG エンティティ抽出とは？（グラフラグエンティティチュウシュツ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

NERベースの手法

従来のNERパイプライン

NER（Named Entity Recognition）は自然言語処理の基本タスクであり、テキスト中の固有表現を認識・分類する。Graph RAGの文脈では、LLMベースの抽出の補完や前処理として活用される。

NERツール	ベースモデル	対応言語	エンティティ型	処理速度
SpaCy	Transformer/CNN	60+	PERSON, ORG, LOC等	高速
Stanza (Stanford NLP)	BiLSTM-CRF	66	PER, ORG, LOC, MISC	中速
Flair	Transformer	20+	カスタム可能	中速
Hugging Face NER	BERT/RoBERTa	100+

関係パターン	説明	例
所属関係	人物・組織間の帰属	「AはBに所属している」
開発関係	技術・製品の開発者	「AがBを開発した」
使用関係	技術・ツールの利用	「AはBを使用している」
比較関係	競合・代替技術	「AはBの代替手法である」
依存関係	技術的依存性	「AはBに依存している」
発展関係	技術の進化・改良	「AはBを発展させたものである」

手法	説明	精度	コスト
ルールベース	代名詞と直近の固有名詞を対応付け	低〜中	最低
SpaCy/NeuralCoref	ニューラルネットワークベースの共参照解決	中	低
LLM統合	抽出時に共参照をLLMに解決させる	高	高
後処理マージ	抽出後にエンティティ類似度で統合	中〜高	中

正規化対象	変換前の例	正規化後
略称展開	MS, MSFT	Microsoft
表記統一	グーグル, Google, google	Google
別名統合	GPT-4, GPT4, gpt-4	GPT-4
敬称除去	田中教授, 田中先生	田中（PERSON）
組織名正規化	東大, 東京大学, UTokyo	東京大学

エラー型	説明	対処法
過剰抽出	非エンティティをエンティティとして抽出	エンティティ型の制限、後処理フィルタ
抽出漏れ	重要エンティティの見逃し	Gleaning回数増加、チャンクサイズ縮小
型誤分類	エンティティ型の誤判定	Few-shot例の追加、型定義の明確化
関係幻覚	存在しない関係の捏造	関係強度の閾値フィルタ、元テキスト検証
粒度不一致	抽象度の異なるエンティティの混在	抽出プロンプトでの粒度指示

メニュー

Graph RAG エンティティ抽出（グラフラグエンティティチュウシュツ）

メニュー

Graph RAG エンティティ抽出（グラフラグエンティティチュウシュツ）

この用語に関連するコンテンツ

エンティティ抽出の概要

NERベースの手法

従来のNERパイプライン

NERとLLM抽出の使い分け

LLMによる関係抽出

プロンプト設計の詳細

関係の方向性と型

抽出品質の向上手法

共参照解決（Coreference Resolution）

共参照解決の必要性

共参照解決の手法

エンティティ正規化

名称の揺れへの対処

エンティティマージ戦略

エラー分析と品質改善

一般的な抽出エラー

よくある質問（FAQ）

Q1: エンティティ抽出にGPT-4とGPT-4o-miniのどちらを使うべきですか？

Q2: 日本語テキストのエンティティ抽出で注意すべき点は何ですか？

Q3: 抽出したエンティティの品質をどう検証しますか？

関連用語