Google出身チームが開発したオープンソースのデータキュレーションツール。LLM学習データの可視化・検索・クリーニング・フィルタリングをWeb UIで対話的に実行でき、高品質なファインチューニングデータセット構築を支援する。
Lilacは、LLMの学習データを可視化・検索・クリーニングするためのオープンソースデータキュレーションツールです。Google DeepMind出身のチームが開発し、GitHub上でApache 2.0ライセンスで公開されています。Webブラウザ上の対話的なUIでデータセットの品質を評価・改善でき、ファインチューニング用の高品質データ構築を大幅に効率化します。
| 機能 | 説明 | 対応規模 |
|---|---|---|
| セマンティック検索 | 埋め込みベクトルによる意味検索 | 数百万件 |
| 品質スコアリング | テキスト品質の自動評価 | バッチ処理可 |
| 重複検出 | MinHash/SimHash による近似重複検出 | 大規模対応 |
| PII マスキング | 個人情報の自動検出・マスク | 名前/メール/電話番号 |
| クラスタリング | テーマ別の自動グルーピング | HDBSCAN ベース |
| ラベリング | 概念ベースの自動タグ付け | ゼロショット対応 |
| フィルタリング | 条件指定による選択・除外 | SQL ライクな構文 |
LLMの性能は学習データの品質に直結します。「Garbage In, Garbage Out」の原則はLLMでも例外ではなく、むしろデータ品質の影響が増幅されます。
Lilacはこれらの課題を1つのツールで包括的に解決します。
| ツール | 開発元 | ライセンス | 主な強み | UI | 価格 |
|---|---|---|---|---|---|
| Lilac | Lilac AI | Apache 2.0 | 可視化+セマンティック検索 | Web UI | 無料(OSS) |
| Argilla | Argilla | Apache 2.0 | アノテーション+RLHF | Web UI | 無料(OSS) |
| Cleanlab Studio | Cleanlab | 商用 | 自動品質検出 | Web UI | 有料($500/月〜) |
| Label Studio | HumanSignal | Apache 2.0 | 汎用アノテーション |
Lilacの特徴は「アノテーション」ではなく「キュレーション」に特化している点です。データの品質評価・フィルタリング・探索に焦点を当て、アノテーション機能はArgilla等と組み合わせて使う設計思想です。
pip install lilac
lilac start
ブラウザで http://localhost:5432 にアクセスするとWeb UIが起動します。GPUは不要ですが、埋め込み計算を高速化する場合はGPU搭載マシンを推奨します。
Q1: LilacはGPUなしでも使えますか? A: はい、CPU環境でも動作します。ただし埋め込み計算やクラスタリングはGPUがあると10〜50倍高速化されます。小規模データセット(〜10万件)ならCPUでも実用的な速度です。
Q2: HuggingFace以外のデータソースにも対応していますか? A: はい、JSONL、Parquet、CSV、Pandas DataFrameからの読み込みに対応しています。HuggingFace Datasetsとの統合が最も充実していますが、任意のテキストデータを扱えます。
Q3: 商用利用は可能ですか? A: Apache 2.0ライセンスのため、商用利用・改変・再配布が自由に可能です。社内のLLM開発パイプラインに組み込んでも問題ありません。
| Web UI |
| 無料(OSS) |
| Prodigy | Explosion | 商用 | spaCy統合アノテーション | Web UI | $490(買い切り) |