RefinedWeb データセットとは？（リファインドウェブ データセット）わかりやすく解説

Q: RefinedWeb データセットとは？

Technology Innovation Institute（TII）が構築した5兆トークン規模の高品質Webテキストコーパス。独自のMacroData Refinementパイプラインで CommonCrawlから厳選し、Falconモデルの学習に使用された。Webデータのみでキュレーション済み書籍・論文に匹敵する品質を達成。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

RefinedWeb データセットとは？（リファインドウェブデータセット）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

MacroData Refinement（MDR）パイプライン

RefinedWebの核心は、4段階のフィルタリングパイプライン「MacroData Refinement」です。

段階	処理内容	除外率
1. URL重複除去	同一URLの文書を除外	約30%
2. 文書品質フィルタ	テキスト長・言語・特殊文字比率	約20%
3. MinHash LSH重複除去	模倣的に類似した文書ペアの除去	約25%
4. 行単位フィルタ	個々の行の品質チェック	約5%

入力のCommonCrawl全体（約100兆トークン相当）から、最終的に約5兆トークンの高品質テキストが残ります。

Webデータのみで高品質を実現した知見

従来のLLM学習では、CommonCrawlのようなWebデータは「低品質」とみなされ、書籍（Books3等）や学術論文（peS2o等）のキュレーション済みソースと混合して使用するのが常識でした。RefinedWebの研究が示した重要な知見です。

十分なフィルタリングを行えばWebデータのみで高品質な学習が可能
キュレーション済みソースの追加による性能向上は限定的（Falcon 40BはRefinedWeb 100%で学習）
データの多様性は品質フィルタリングで維持可能
重複除去が最も性能に寄与するステップ（MinHash LSHによる模倣重複除去が特に重要）

Falconモデルでの使用実績

モデル	パラメータ	学習データ量	RefinedWeb比率	結果
Falcon 7B	7B	1.5兆トークン	100%	GPT-3比で同等以上
Falcon 40B	40B	1兆トークン	100%	GPT-3.5に迫る
Falcon 180B	180B	3.5兆トークン	85%	当時OSS最強

Falcon 7B/40BはRefinedWeb 100%で学習され、混合コーパスを使用する他のOSSモデルを上回る性能を達成しました。

公開データと利用条件

公開規模: 6,000億トークン（全体5兆トークンのサブセット）
フォーマット: Parquet / HuggingFace Datasets
ライセンス: ODC-BY-1.0（商用利用可）
ダウンロード: HuggingFace Hub「tiiuae/falcon-refinedweb」

フルの5兆トークン版は非公開ですが、6,000億トークンの公開版でも多くのLLM学習に十分な規模です。

他のWebコーパスとの比較

コーパス	開発元	規模	ソース	フィルタリング	公開量
RefinedWeb	TII	5兆 tok	CommonCrawl	MDR 4段階	600B tok
FineWeb	HuggingFace	15兆 tok	CommonCrawl	5段階	全量
C4	Google	3,650億 tok	CommonCrawl (1snapshot)	3段階	全量
OSCAR	INRIA	数兆 tok	CommonCrawl

FineWeb（2024年）はRefinedWebの知見を踏まえつつ15兆トークンに規模を拡大し、より新しい選択肢です。

よくある質問（FAQ）

Q1: RefinedWebとFineWebはどちらを使うべきですか？ A: 2025-2026年時点ではFineWebを推奨します。FineWebはRefinedWebの知見を踏まえて構築された後発プロジェクトで、規模（15兆トークン）とフィルタリング品質の両面で改善されています。RefinedWebはFalcon学習の再現実験に有用です。

Q2: 日本語のRefinedWebはありますか？ A: 公式には英語のみです。日本語Webコーパスは、国立情報学研究所のllm-jp-corpusやCyberAgent/calm3-corpus等の日本語特化プロジェクトを検討してください。

Q3: 公開版600BトークンでLLMを学習できますか？ A: 7B〜13B規模のモデルなら十分です。Chinchillaの法則に基づくと、7Bモデルの最適学習データ量は約140Bトークンなので、600Bトークンは十分な余裕があります。40B以上のモデルでは追加ソースとの混合を検討してください。

まとめ

TIIが構築した5兆トークン規模のWebテキストコーパス
独自のMDRパイプラインで4段階フィルタリング
Webデータのみでキュレーション済みコーパス品質を達成した画期的成果
Falcon 7B/40B/180Bの学習データとして実績
600Bトークンの公開版がHuggingFace Hubで利用可能（ODC-BY-1.0）

メニュー

RefinedWeb データセット（リファインドウェブデータセット）

メニュー

RefinedWeb データセット（リファインドウェブデータセット）

この用語に関連するコンテンツ