Dolma データセットツールキットとは？（ドルマ データセットツールキット）わかりやすく解説

Q: Dolma データセットツールキットとは？

Allen AI（AI2）が開発したOLMoモデルの学習に使用されたオープンソースデータセットおよびツールキット。3兆トークン規模のWeb・書籍・論文・コードを含む多ソースコーパスと、そのキュレーションパイプラインを完全公開している。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Dolma データセットツールキットとは？（ドルマデータセットツールキット）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

コーパス構成

ソース	トークン数	割合	内容
CommonCrawl	約2.1兆	70%	Webページテキスト
C4 (Colossal Clean Crawled Corpus)	約1,900億	6%	Googleがクリーニング済みWebテキスト
peS2o	約570億	2%	Semantic Scholarの学術論文
The Stack	約1,100億	4%	GitHubのオープンソースコード
Project Gutenberg	約50億	0.2%	パブリックドメイン書籍
Wikipedia	約36億	0.1%	英語Wikipedia全文
Reddit	約850億	3%	Redditコメント・投稿
その他	約4,500億	15%	混合ソース

キュレーションパイプライン

Dolmaツールキットは以下の処理をRustベースの高速エンジンで実行します。

言語フィルタリング: fastTextベースの言語検出で英語テキストを選別（98%精度）
品質フィルタリング: パープレキシティスコア、テキスト長、特殊文字比率による品質評価
重複除去: Bloom Filter + MinHash LSH による文書レベル・段落レベルの重複除去
PII除去: 正規表現 + NERモデルによるメールアドレス・電話番号・IPアドレス等の検出・除去
有害コンテンツフィルタ: Jigsaw Toxic Comment分類器ベースの毒性スコアリング
ドメインフィルタ: URL blocklist（アダルト・スパム・マルウェアサイト）による除外

Rustベースの高速処理

処理	速度（1TB入力）	メモリ使用量
テキスト抽出	約2時間（64コア）	約32GB
言語フィルタリング	約1時間	約8GB
重複除去	約4時間	約128GB
PII除去	約3時間	約16GB
全パイプライン	約12時間	約128GB

PythonではなくRustで実装されているため、CommonCrawl規模（ペタバイト級）のデータを実用的な時間で処理可能です。

OLMoとの関係

モデル	パラメータ	学習データ	Dolmaバージョン
OLMo 1B	1.2B	2兆トークン	Dolma v1.6
OLMo 7B	6.9B	2.5兆トークン	Dolma v1.6
OLMo 13B	13B	2.5兆トークン	Dolma v1.6
OLMo 2 7B	6.9B	3兆トークン	Dolma v1.7
OLMo 2 13B	13B	5兆トークン	Dolma v1.7

AI2はモデル重み・学習データ・学習コード・評価コードの全てをオープンにする「fully open」方針を採用しており、Dolmaはその学習データ公開部分を担っています。

他のオープンコーパスとの比較

コーパス	開発元	規模	ソース	ツール公開
Dolma	AI2	3兆トークン	Web+学術+コード+書籍	○（Rust）
RefinedWeb	TII	5兆トークン	CommonCrawl	○（Python）
RedPajama v2	Together AI	30兆トークン	Web+書籍+コード+学術	○（Python）
The Pile	EleutherAI	825GB	22ソース混合	○（Python）
FineWeb	HuggingFace

よくある質問（FAQ）

Q1: Dolmaデータセットをそのまま自社LLMの学習に使えますか？ A: はい、ODC-BY-1.0ライセンスで公開されており、商用LLMの学習データとして自由に利用可能です。ただしCommonCrawl由来のデータには著作権のあるコンテンツが含まれる可能性があるため、用途に応じた法的確認を推奨します。

Q2: Dolmaツールキットだけを使って独自コーパスを構築できますか？ A: はい、ツールキットは汎用のデータ処理パイプラインとして設計されており、任意のテキストデータに適用可能です。Rustベースのため高速で、CommonCrawl全体の処理にも対応する設計です。

Q3: DolmaとFineWebの違いは何ですか？ A: Dolmaは多ソース（Web+学術+コード+書籍）の混合コーパスで、OLMo学習の再現性を重視。FineWebはCommonCrawlのみに特化し、15兆トークンとWebデータの品質フィルタリングに最も注力しています。用途に応じて使い分けます。

まとめ

AI2が開発した3兆トークン規模の完全オープンLLM学習コーパス
CommonCrawl・学術論文・コード・書籍の多ソース構成
Rustベースの高速キュレーションパイプラインを公開
OLMo/OLMo 2の学習データとして実績あり
ODC-BY-1.0ライセンスで商用利用可能

メニュー

Dolma データセットツールキット（ドルマデータセットツールキット）

メニュー

Dolma データセットツールキット（ドルマデータセットツールキット）

この用語に関連するコンテンツ