Technology Innovation Institute(TII)が構築した5兆トークン規模の高品質Webテキストコーパス。独自のMacroData Refinementパイプラインで CommonCrawlから厳選し、Falconモデルの学習に使用された。Webデータのみでキュレーション済み書籍・論文に匹敵する品質を達成。
RefinedWebは、UAE(アラブ首長国連邦)のTechnology Innovation Institute(TII)が構築した5兆トークン規模の大規模Webテキストコーパスです。CommonCrawlの全期間アーカイブから高品質な英語テキストを抽出し、Falconモデルファミリー(7B/40B/180B)の学習データとして使用されました。「Webデータだけでキュレーション済みの書籍・論文コーパスに匹敵する品質を達成できる」ことを実証した画期的なプロジェクトです。
RefinedWebの核心は、4段階のフィルタリングパイプライン「MacroData Refinement」です。
| 段階 | 処理内容 | 除外率 |
|---|---|---|
| 1. URL重複除去 | 同一URLの文書を除外 | 約30% |
| 2. 文書品質フィルタ | テキスト長・言語・特殊文字比率 | 約20% |
| 3. MinHash LSH重複除去 | 模倣的に類似した文書ペアの除去 | 約25% |
| 4. 行単位フィルタ | 個々の行の品質チェック | 約5% |
入力のCommonCrawl全体(約100兆トークン相当)から、最終的に約5兆トークンの高品質テキストが残ります。
従来のLLM学習では、CommonCrawlのようなWebデータは「低品質」とみなされ、書籍(Books3等)や学術論文(peS2o等)のキュレーション済みソースと混合して使用するのが常識でした。RefinedWebの研究が示した重要な知見です。
| モデル | パラメータ | 学習データ量 | RefinedWeb比率 | 結果 |
|---|---|---|---|---|
| Falcon 7B | 7B | 1.5兆トークン | 100% | GPT-3比で同等以上 |
| Falcon 40B | 40B | 1兆トークン | 100% | GPT-3.5に迫る |
| Falcon 180B | 180B | 3.5兆トークン | 85% | 当時OSS最強 |
Falcon 7B/40BはRefinedWeb 100%で学習され、混合コーパスを使用する他のOSSモデルを上回る性能を達成しました。
フルの5兆トークン版は非公開ですが、6,000億トークンの公開版でも多くのLLM学習に十分な規模です。
| コーパス | 開発元 | 規模 | ソース | フィルタリング | 公開量 |
|---|---|---|---|---|---|
| RefinedWeb | TII | 5兆 tok | CommonCrawl | MDR 4段階 | 600B tok |
| FineWeb | HuggingFace | 15兆 tok | CommonCrawl | 5段階 | 全量 |
| C4 | 3,650億 tok | CommonCrawl (1snapshot) | 3段階 | 全量 | |
| OSCAR | INRIA | 数兆 tok | CommonCrawl |
FineWeb(2024年)はRefinedWebの知見を踏まえつつ15兆トークンに規模を拡大し、より新しい選択肢です。
Q1: RefinedWebとFineWebはどちらを使うべきですか? A: 2025-2026年時点ではFineWebを推奨します。FineWebはRefinedWebの知見を踏まえて構築された後発プロジェクトで、規模(15兆トークン)とフィルタリング品質の両面で改善されています。RefinedWebはFalcon学習の再現実験に有用です。
Q2: 日本語のRefinedWebはありますか? A: 公式には英語のみです。日本語Webコーパスは、国立情報学研究所のllm-jp-corpusやCyberAgent/calm3-corpus等の日本語特化プロジェクトを検討してください。
Q3: 公開版600BトークンでLLMを学習できますか? A: 7B〜13B規模のモデルなら十分です。Chinchillaの法則に基づくと、7Bモデルの最適学習データ量は約140Bトークンなので、600Bトークンは十分な余裕があります。40B以上のモデルでは追加ソースとの混合を検討してください。
| 多言語フィルタ |
| 全量 |
| CC-100 | 非公開 | CommonCrawl | 言語フィルタ | 全量 |