RAFT訓練手法とは？（ラフトクンレンシュホウ）わかりやすく解説

Q: RAFT訓練手法とは？

RAFT（Retrieval Augmented Fine-Tuning）の訓練手法は、oracle文書とdistractor文書を混在させたコンテキストでLLMをファインチューニングし、Chain-of-Thought形式で根拠付き回答を生成させる。P比率（oracle含有率）の制御とCoT回答生成がRAFT特有の訓練設計の核心である。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

RAFT訓練手法とは？（ラフトクンレンシュホウ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

RAFT訓練手法の全体像

RAFT（Retrieval Augmented Fine-Tuning）の訓練手法は、従来のSFT（Supervised Fine-Tuning）を拡張し、RAGパイプラインに最適化された学習プロセスを実現する。標準的なSFTでは（質問, 回答）ペアで訓練するが、RAFTでは（質問, コンテキスト文書群, Chain-of-Thought回答）の三つ組で訓練を行う。

コンテキスト文書群にはoracle文書（正解情報を含む文書）とdistractor文書（無関係だが同ドメインの文書）が混在しており、モデルはこのノイズの中から必要な情報を選別して回答する能力を獲得する。この訓練設計により、実際のRAGパイプラインでretrieverが返す不完全な文書セットに対しても堅牢な応答が可能になる。

訓練の入出力形式は以下の通りである：

要素	内容	形式
入力：質問	ドメイン固有のQAクエリ	自然言語テキスト
入力：文書群	D* + D1, D2, ..., Dk	連結テキスト（区切り付き）
出力：CoT回答	推論過程 + 引用 + 最終回答	構造化テキスト

P比率（Oracle含有率）の設計

P比率はRAFT訓練における最も重要なハイパーパラメータの一つである。P比率は、訓練データ全体のうちoracle文書がコンテキストに含まれるサンプルの割合を定義する。

P=1.0の場合、すべてのサンプルにoracle文書が含まれる。これは一見最も情報量が多い設定に見えるが、モデルが「コンテキストには常に正解がある」と学習してしまい、retrieverが失敗してoracle文書が含まれない場合にパフォーマンスが大幅に低下する。

P=0.0の場合、oracle文書が一切含まれない。これはクローズドブック試験と同等であり、RAGの利点が完全に失われる。

最適なP比率はドメインとタスクの特性に依存するが、論文の実験結果から以下の指針が得られている：

P比率	特性	推奨シーン
0.2〜0.4	パラメトリック知識重視	retriever精度が低いドメイン
0.4〜0.6	バランス型	汎用ドメインQA
0.6〜0.8	コンテキスト重視	retriever精度が高いドメイン
0.8〜1.0	最大コンテキスト活用	閉じたドメイン（全文書が高品質）

実践的には、P=0.5〜0.7の範囲がほとんどのドメインで良好な結果を示す。開発時にはP比率を変えた複数のモデルを訓練し、バリデーションセットで最適値を選定することが推奨される。

Chain-of-Thought回答生成

RAFTの訓練において、回答は単純な最終回答ではなく、Chain-of-Thought（CoT）形式で生成される。CoT回答は以下の構造を持つ：

：コンテキスト文書群の中から、質問に関連する箇所を明示的に引用する

メリット	説明
根拠の明示	回答の根拠となる文書箇所が引用されるため、ユーザーが検証可能
ハルシネーション抑制	推論過程を明示することで、根拠のない回答が検出しやすくなる
情報抽出能力の向上	引用を含む訓練により、モデルが文書内の関連箇所を正確に特定する能力が向上
デバッグ容易性	誤回答の原因が推論過程のどのステップにあるかを特定しやすい

損失コンポーネント	重み（目安）	目的
CoT全体の交差エントロピー	1.0	基本的な回答生成能力
引用部分の追加重み	0.1〜0.5	文書参照能力の強化
最終回答部分の追加重み	0.2〜0.3	回答精度の向上
KL正則化（オプション）	0.01〜0.1	ベースモデルからの乖離防止

ハイパーパラメータ	推奨値	備考
学習率	1e-5〜5e-5	LoRA使用時は2e-4〜5e-4
バッチサイズ	4〜16	GPU メモリに応じて調整
エポック数	3〜5	過学習監視必須
LoRAランク	16〜64	大きいほど表現力↑、過学習リスク↑
最大系列長	2048〜4096	コンテキスト文書数に応じて
ウォームアップ比率	0.03〜0.1	標準的なSFTと同等

メニュー

RAFT訓練手法（ラフトクンレンシュホウ）

メニュー

RAFT訓練手法（ラフトクンレンシュホウ）

この用語に関連するコンテンツ

RAFT訓練手法の全体像

P比率（Oracle含有率）の設計

Chain-of-Thought回答生成

損失関数の設計

訓練の実装手順

よくある質問

Q: P比率は訓練中に動的に変更すべきですか？

Q: CoT回答の教師データはどのように作成しますか？

Q: RAFTの訓練で最も注意すべき点は何ですか？

Q: 標準的なSFTとRAFTの訓練時間の差はどの程度ですか？

関連用語