Synthetic QA Generation（合成質問応答生成）とは？（シンセティックキューエージェネレーション）わかりやすく解説

LLMにドキュメントやコーパスを入力として与え、質問-回答ペアを自動生成するデータ拡張手法。RAGシステムの評価・訓練データ作成、ドメイン特化QAモデルの構築に不可欠な技術で、人手アノテーションの1/100以下のコストで大規模QAデータセットを構築できる。

Synthetic QA Generation（合成質問応答生成）とは？（シンセティックキューエージェネレーション）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

生成パイプライン

Synthetic QA の標準的な生成パイプラインは以下の通りである。

ドキュメント収集 → チャンク分割 → 質問生成 → 回答生成 → 品質フィルタ → QAデータセット

チャンクを LLM に入力し、そのチャンクから回答可能な質問を生成させる。

質問タイプ	説明	生成プロンプトの例
事実型	特定の事実を問う	「このテキストから、事実に関する質問を3つ生成してください」
推論型	情報の組み合わせが必要	「複数の情報を組み合わせて答える質問を生成してください」
比較型	2つ以上の要素の比較	「テキスト中の要素を比較する質問を生成してください」
Why/How型	理由や方法を問う

ツール	開発元	対応LLM	特徴	価格帯
RAGAS	Explodinggradients	GPT-4/Claude/ローカル	RAG評価に特化、8種の自動評価指標	OSS（無料）
Giskard	Giskard AI	GPT-4/Claude	テスト生成 + 脆弱性検出	OSS + Enterprise
LlamaIndex QA Generator	LlamaIndex	任意のLLM	ドキュメントローダーと統合	OSS（無料）
Promptfoo	Promptfoo	任意のLLM	QA生成 + A/Bテスト + CI統合	OSS + Cloud
Synthetic Data Vault	DataCebo	表形式データ	構造化データのQA生成	OSS + Enterprise
Argilla	Argilla	任意のLLM	アノテーション + QA生成ワークフロー	OSS（無料）

設定	SQuAD 2.0 (F1)	Natural Questions (F1)	コスト/1K QA	生成速度
人手アノテーション	89.2	85.4	$500-1,000	50件/時
GPT-4 Synthetic QA	86.8	83.1	$3-5	200件/分
Claude 3.5 Synthetic QA	86.2	82.7	$2-4	200件/分
Llama-3-70B Synthetic QA	83.5	79.8	$0 (ローカル)	50件/分
T5-XXL Synthetic QA	81.2	77.3	$0 (ローカル)	100件/分