RAFTデータセット構築とは？（ラフトデータセットコウチク）わかりやすく解説

RAFTのデータセット構築は、ドメイン固有のコーパスから質問-回答ペアを生成し、各質問に対してoracle文書（正解を含む文書）とdistractor文書（無関係な文書）を割り当てるプロセスである。Chain-of-Thought形式の教師回答の生成と品質管理が構築の鍵となる。

RAFTデータセット構築とは？（ラフトデータセットコウチク）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

データセット構築の概要

RAFTデータセット構築は、RAFTファインチューニングの成否を決定する最も重要な工程である。高品質な訓練データがなければ、どれだけ訓練パラメータを最適化しても十分な性能は得られない。構築プロセスは大きく4つのフェーズに分かれる。

データセットの規模は、ドメインの複雑さと要求精度に応じて数千〜数万サンプルが必要である。論文の実験では、PubMedQA（医療）やHotpotQA（一般知識）などの既存ベンチマークを使用した評価が行われているが、実務ではドメイン固有のデータセットをゼロから構築する必要がある。

ドメイン固有コーパスの準備は、RAFTデータセット構築の出発点である。

文書収集の指針

前処理パイプライン

戦略	説明	難易度	効果
ランダム選択	コーパスからランダムにチャンクを選択	低	基本的なノイズ耐性
トピック類似選択	同トピックだが回答と無関係なチャンクを選択	中	意味的識別能力の向上
高類似度選択	Embeddingの類似度が高いが回答を含まないチャンクを選択	高	最高レベルのノイズ耐性