データセットの品質がマルチモーダルモデルの性能に与える影響を体系的に評価するためのベンチマーク。同一のモデルアーキテクチャと学習設定で、データセットのみを変数として競い合うコンペティション形式で運営される。
DataCompは、データセットの品質がマルチモーダルモデル(CLIP)の性能に与える影響を定量的に評価するベンチマークです。モデルアーキテクチャや学習ハイパーパラメータを固定し、データセットのフィルタリング戦略のみを変数として競い合う世界初の大規模データ品質コンペティションです。Toyota Research Institute、Apple、Google、Columbia University等の研究者が2023年に共同で立ち上げました。
| 項目 | 仕様 |
|---|---|
| 評価対象 | データフィルタリング戦略 |
| 固定要素 | モデルアーキテクチャ(ViT)・学習設定・評価プロトコル |
| 変数要素 | データセット(フィルタリング方法のみ) |
| データプール | CommonPool(128億image-textペア) |
| 評価タスク | 38のダウンストリームタスク(ImageNet, VTAB等) |
| トラック | Small (12.8M) / Medium (128M) / Large (1.28B) / XLarge (12.8B) |
| モデル | ViT-B/32 (Small-Large) / ViT-L/14 (XLarge) |
| リーダーボード | datacomp.ai で公開 |
従来のML研究はモデルアーキテクチャの改良に注力してきましたが、Scaling Lawsの研究で「データの質と量がモデル性能の上限を決める」ことが明らかになりました。
DataCompはこの「データ選別ノウハウ」を科学的に比較する初の枠組みです。
| トラック | プールサイズ | 学習サンプル数 | モデル | GPU時間 (A100) |
|---|---|---|---|---|
| Small | 12.8M | 12.8M | ViT-B/32 | 約2時間 |
| Medium | 128M | 128M | ViT-B/32 | 約20時間 |
| Large | 1.28B | 1.28B | ViT-B/32 | 約200時間 |
| XLarge | 12.8B | 12.8B | ViT-L/14 | 約5,000時間 |
Smallトラックは個人研究者でも参加可能な計算量で、データフィルタリング研究の民主化に貢献しています。
DataCompの上位エントリから得られた主要な知見です。
Q1: DataCompに個人で参加できますか? A: はい、Smallトラック(12.8M件)なら一般的なGPU(RTX 4090等)で約2時間で学習が完了するため、個人研究者でも十分参加可能です。フィルタリングコードとCommonPoolへのアクセス方法はGitHubで公開されています。
Q2: DataCompの結果はCLIP以外のモデルにも適用できますか? A: DataComp自体はCLIP学習に特化していますが、上位手法で発見されたフィルタリング戦略(CLIP Scoreフィルタ、テキスト品質フィルタ等)は、他のマルチモーダルモデルやLLMのデータ選別にも応用されています。DCLM(DataComp-LM)はLLM向けに拡張されたバリアントです。
Q3: CommonPoolのデータはどこから収集されていますか? A: CommonCrawlから抽出されたWebページのimage-textペアです。128億件のフルプールはCC-BY-4.0ライセンスのメタデータとして公開されており、画像URLから再ダウンロードして使用します。