DataComp ベンチマークとは？（データコンプ ベンチマーク）わかりやすく解説

Q: DataComp ベンチマークとは？

データセットの品質がマルチモーダルモデルの性能に与える影響を体系的に評価するためのベンチマーク。同一のモデルアーキテクチャと学習設定で、データセットのみを変数として競い合うコンペティション形式で運営される。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

DataComp ベンチマークとは？（データコンプベンチマーク）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

ベンチマーク設計

項目	仕様
評価対象	データフィルタリング戦略
固定要素	モデルアーキテクチャ（ViT）・学習設定・評価プロトコル
変数要素	データセット（フィルタリング方法のみ）
データプール	CommonPool（128億image-textペア）
評価タスク	38のダウンストリームタスク（ImageNet, VTAB等）
トラック	Small (12.8M) / Medium (128M) / Large (1.28B) / XLarge (12.8B)
モデル	ViT-B/32 (Small-Large) / ViT-L/14 (XLarge)
リーダーボード	datacomp.ai で公開

なぜデータ品質の定量化が重要か

従来のML研究はモデルアーキテクチャの改良に注力してきましたが、Scaling Lawsの研究で「データの質と量がモデル性能の上限を決める」ことが明らかになりました。

Chinchillaの法則: パラメータ数とデータ量の最適比率が存在
データ品質 > データ量: ノイズの多い10億件より、高品質な1億件の方が高性能
フィルタリングの効果: 同じデータプールでも選別方法で最終性能が30%以上変動
再現性: データ選別のノウハウは属人的で定量比較が困難だった

DataCompはこの「データ選別ノウハウ」を科学的に比較する初の枠組みです。

コンペティションのトラック

トラック	プールサイズ	学習サンプル数	モデル	GPU時間 (A100)
Small	12.8M	12.8M	ViT-B/32	約2時間
Medium	128M	128M	ViT-B/32	約20時間
Large	1.28B	1.28B	ViT-B/32	約200時間
XLarge	12.8B	12.8B	ViT-L/14	約5,000時間

Smallトラックは個人研究者でも参加可能な計算量で、データフィルタリング研究の民主化に貢献しています。

上位手法の知見

DataCompの上位エントリから得られた主要な知見です。

CLIP Score フィルタリング: 既存のCLIPモデルでimage-textペアの整合性スコアを算出し、閾値以下を除外。最もシンプルかつ効果的
テキスト品質フィルタ: テキスト長・言語検出・特殊文字比率でフィルタ。短すぎる・意味不明なキャプションの除外が効果大
重複除去: 画像のperceptual hashingやテキストのMinHashで近似重複を削除。10〜30%の重複除去で1〜3%の性能向上
安全性フィルタ: NSFW検出・有害コンテンツフィルタの適用
バランシング: 概念カバレッジの均一化。特定ドメインへの過度な偏りを補正

よくある質問（FAQ）

Q1: DataCompに個人で参加できますか？ A: はい、Smallトラック（12.8M件）なら一般的なGPU（RTX 4090等）で約2時間で学習が完了するため、個人研究者でも十分参加可能です。フィルタリングコードとCommonPoolへのアクセス方法はGitHubで公開されています。

Q2: DataCompの結果はCLIP以外のモデルにも適用できますか？ A: DataComp自体はCLIP学習に特化していますが、上位手法で発見されたフィルタリング戦略（CLIP Scoreフィルタ、テキスト品質フィルタ等）は、他のマルチモーダルモデルやLLMのデータ選別にも応用されています。DCLM（DataComp-LM）はLLM向けに拡張されたバリアントです。

Q3: CommonPoolのデータはどこから収集されていますか？ A: CommonCrawlから抽出されたWebページのimage-textペアです。128億件のフルプールはCC-BY-4.0ライセンスのメタデータとして公開されており、画像URLから再ダウンロードして使用します。

まとめ

モデルでなくデータの品質を定量評価する世界初の大規模ベンチマーク
12.8M〜12.8B件規模の4トラックで個人から企業まで参加可能
38のダウンストリームタスクでフィルタリング戦略の優劣を科学的に比較
CLIP Scoreフィルタ・重複除去・テキスト品質フィルタ等の知見を蓄積
テキストLLM向けのDCLM（DataComp-LM）にも展開済み

メニュー

DataComp ベンチマーク（データコンプベンチマーク）

この用語に関連するコンテンツ

メニュー

DataComp ベンチマーク（データコンプベンチマーク）

この用語に関連するコンテンツ