Allen AI(AI2)が開発したOLMoモデルの学習に使用されたオープンソースデータセットおよびツールキット。3兆トークン規模のWeb・書籍・論文・コードを含む多ソースコーパスと、そのキュレーションパイプラインを完全公開している。
Dolmaは、Allen Institute for AI(AI2)が開発した大規模テキストコーパスとデータキュレーションツールキットです。「Data for Open Language Models' Appetite」の略称で、約3兆トークンの多ソースコーパスとその構築パイプラインを完全にオープンソースで公開しています。AI2の完全オープンLLM「OLMo」「OLMo 2」の学習データとして使用され、LLM学習データの透明性と再現性を目指すプロジェクトです。
| ソース | トークン数 | 割合 | 内容 |
|---|---|---|---|
| CommonCrawl | 約2.1兆 | 70% | Webページテキスト |
| C4 (Colossal Clean Crawled Corpus) | 約1,900億 | 6% | Googleがクリーニング済みWebテキスト |
| peS2o | 約570億 | 2% | Semantic Scholarの学術論文 |
| The Stack | 約1,100億 | 4% | GitHubのオープンソースコード |
| Project Gutenberg | 約50億 | 0.2% | パブリックドメイン書籍 |
| Wikipedia | 約36億 | 0.1% | 英語Wikipedia全文 |
| 約850億 | 3% | Redditコメント・投稿 | |
| その他 | 約4,500億 | 15% | 混合ソース |
Dolmaツールキットは以下の処理をRustベースの高速エンジンで実行します。
| 処理 | 速度(1TB入力) | メモリ使用量 |
|---|---|---|
| テキスト抽出 | 約2時間(64コア) | 約32GB |
| 言語フィルタリング | 約1時間 | 約8GB |
| 重複除去 | 約4時間 | 約128GB |
| PII除去 | 約3時間 | 約16GB |
| 全パイプライン | 約12時間 | 約128GB |
PythonではなくRustで実装されているため、CommonCrawl規模(ペタバイト級)のデータを実用的な時間で処理可能です。
| モデル | パラメータ | 学習データ | Dolmaバージョン |
|---|---|---|---|
| OLMo 1B | 1.2B | 2兆トークン | Dolma v1.6 |
| OLMo 7B | 6.9B | 2.5兆トークン | Dolma v1.6 |
| OLMo 13B | 13B | 2.5兆トークン | Dolma v1.6 |
| OLMo 2 7B | 6.9B | 3兆トークン | Dolma v1.7 |
| OLMo 2 13B | 13B | 5兆トークン | Dolma v1.7 |
AI2はモデル重み・学習データ・学習コード・評価コードの全てをオープンにする「fully open」方針を採用しており、Dolmaはその学習データ公開部分を担っています。
| コーパス | 開発元 | 規模 | ソース | ツール公開 |
|---|---|---|---|---|
| Dolma | AI2 | 3兆トークン | Web+学術+コード+書籍 | ○(Rust) |
| RefinedWeb | TII | 5兆トークン | CommonCrawl | ○(Python) |
| RedPajama v2 | Together AI | 30兆トークン | Web+書籍+コード+学術 | ○(Python) |
| The Pile | EleutherAI | 825GB | 22ソース混合 | ○(Python) |
| FineWeb | HuggingFace |
Q1: Dolmaデータセットをそのまま自社LLMの学習に使えますか? A: はい、ODC-BY-1.0ライセンスで公開されており、商用LLMの学習データとして自由に利用可能です。ただしCommonCrawl由来のデータには著作権のあるコンテンツが含まれる可能性があるため、用途に応じた法的確認を推奨します。
Q2: Dolmaツールキットだけを使って独自コーパスを構築できますか? A: はい、ツールキットは汎用のデータ処理パイプラインとして設計されており、任意のテキストデータに適用可能です。Rustベースのため高速で、CommonCrawl全体の処理にも対応する設計です。
Q3: DolmaとFineWebの違いは何ですか? A: Dolmaは多ソース(Web+学術+コード+書籍)の混合コーパスで、OLMo学習の再現性を重視。FineWebはCommonCrawlのみに特化し、15兆トークンとWebデータの品質フィルタリングに最も注力しています。用途に応じて使い分けます。
| 15兆トークン |
| CommonCrawl |
| ○(Python) |