RAGパイプラインとは？（アールエージーパイプライン）わかりやすく解説

Q: RAGパイプラインとは？

RAGパイプラインは、ドキュメントの取り込み（Ingestion）・検索（Retrieval）・生成（Generation）の3段階で構成される処理フローであり、各段階のコンポーネントを最適化・組み合わせることでLLMの回答品質を制御する。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

RAGパイプラインとは？（アールエージーパイプライン）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

Ingestion（取り込み）パイプライン

Ingestionは、RAGパイプラインのオフライン処理部分であり、ドキュメントをベクトルデータベースに格納するまでの一連の処理を指す。

ステップ	処理内容	使用ツール例
Document Loading	PDF/HTML/DOCX等からテキスト抽出	Unstructured、PyMuPDF、Docling
Text Cleaning	ヘッダー/フッター/不要要素の除去	正規表現、専用クリーナー
Chunking	テキストをセマンティック単位に分割	RecursiveCharacterTextSplitter、SemanticChunker
Metadata Extraction	ソース情報・日時・著者等の付与	LLMベース抽出、ルールベース
Embedding	チャンクをベクトルに変換	BGE-M3、Voyage-3、text-embedding-3-large
Indexing	ベクトルDBへの格納・インデックス構築	Qdrant、Pinecone、Weaviate、Milvus

Document Loadingでは、元データの形式に応じた適切なパーサーを選択する。PDFの場合、テーブルや図表の構造を保持できるDoclingやUnstructuredが推奨される。OCR（光学文字認識）が必要な場合はTesseractやAzure Document Intelligenceを組み合わせる。

ステップ	処理内容	代表的手法
Query Processing	クエリの意図解析・書き換え	Query Rewriting、HyDE、Step-back Prompting
Initial Retrieval	候補チャンクの広範囲取得	ベクトル検索、BM25、ハイブリッド検索
Re-ranking	取得結果の精度向上	Cross-Encoder、ColBERT、Cohere Rerank
Filtering	メタデータ・スコア閾値でフィルタ	日時フィルタ、カテゴリフィルタ
Context Assembly	LLMに渡すコンテキストの構成	チャンク結合、要約圧縮

評価対象	メトリクス	説明
Retrieval	Hit Rate@K	正解チャンクがTop-Kに含まれる割合
Retrieval	MRR（Mean Reciprocal Rank）	正解チャンクの順位の逆数の平均
Retrieval	nDCG	順位を考慮した累積利得
Generation	Faithfulness	回答がコンテキストに忠実か
Generation	Answer Relevancy	回答がクエリに関連しているか
E2E	Correctness	最終回答の正確性

メニュー

RAGパイプライン（アールエージーパイプライン）

メニュー

RAGパイプライン（アールエージーパイプライン）

この用語に関連するコンテンツ

RAGパイプラインの全体像

Ingestion（取り込み）パイプライン

Retrieval（検索）パイプライン

Generation（生成）パイプライン

パイプラインの評価と最適化

よくある質問（FAQ）

関連用語