Netflix 2017年内部開発+2018年OSS化したテーブルフォーマット。データレイクACID+スキーマ進化+タイムトラベル対応。
Apache Icebergは、Netflix Ryan Blue+Daniel Weeks等が2017年に内部開発+2018年11月にOSS化したテーブルフォーマット仕様で、データレイク(S3+ADLS+GCS等のクラウドオブジェクトストレージ上のParquet/ORC/Avro)に対するACIDトランザクション+スキーマ進化+タイムトラベル+Hidden Partitioning等のRDBMS級機能を提供する次世代Lakehouse基盤。Apache Foundationへ2020年5月寄贈+2024年Q4業界標準化進行中で、AWS Athena+Snowflake+Databricks+Google BigQuery+Trino+Presto+Apache Spark+Apache Flink等の主要データ分析プラットフォームすべてがApache Iceberg対応+Lakehouse Pattern標準化を進めている。主要技術: ①ACID Transactions(Snapshot Isolation+Optimistic Concurrency Control)+②Schema Evolution(カラム追加/削除/リネーム/型変更)+③Time Travel(過去スナップショット参照+データ復元)+④Hidden Partitioning(パーティション仕様変更でも履歴互換)+⑤Format-Agnostic(Parquet/ORC/Avro等任意ファイルフォーマット対応)+⑥Metadata Layer(manifests+manifest list+metadata.json階層)+⑦Compaction+Expire Snapshots(古いスナップショット削除)。主要採用: Netflix(自社最大利用)+Apple+LinkedIn+Stripe+Adobe+Adidas+Lyft+Twitter/X+各国Fortune 500企業のデータレイク+Lakehouse基盤で2020-2026年急速普及中。競合: Delta Lake(Databricks 2019年OSS化、本batch同時登録)+Apache Hudi(Uber 2017年OSS化)の3大Open Lakehouse Format戦争、2024年Q4時点でIceberg+Delta Lakeが業界主流+Apache Hudiは限定シェア。
| 項目 | Apache Iceberg | Delta Lake | Apache Hudi |
|---|---|---|---|
| OSS化 | 2018/11 | 2019/04 | 2017 |
| 開発 | Netflix | Databricks | Uber |
| ACID | あり | あり | あり |
| Time Travel | あり | あり | あり |
| 業界普及 | 急速拡大 | 主流 | 限定 |
| 対応 | Snowflake+全クラウド | Databricks中心 | Uber+一部 |
Apache Icebergはエンタープライズ・クラウドネイティブ用途で、自作PC一般用途とは別世界。自宅・ホームラボでのIceberg学習: ①Apache Spark+Iceberg ローカル設定(Java+Spark+pyiceberg)、②AWS S3+Athena Iceberg Tables(無料枠)、③Snowflake Free Tier Iceberg、の3ルート。Lakehouse Pattern学習: Iceberg+Delta Lake+Apache Hudi 比較研究で現代データエンジニアリング+AI/ML データパイプラインの最新動向理解が可能。実装ベストプラクティス: ①小規模データから開始(Parquet→Iceberg変換)、②AWS Glue+Athena Iceberg組合せでクラウド統合学習、③Snowflake/Databricks/BigQuery等の主要DWHでIcebergテーブル作成・クエリ実験。
Delta Lake(本batch同時登録、Databricks 2019年OSS)はIcebergの最大競合で、Databricks中心+Apache Spark密結合、Icebergはベンダー中立+全クラウド対応で住み分け。Apache Hudi(Uber 2017年OSS)はIceberg/Delta Lakeより先発だが、Upsert特化+Streaming Ingest+Uber特化で業界普及限定。従来Apache Hive(2010年-)はLakehouse前世代+SQLクエリエンジンで、Iceberg+Delta Lake が後継。
Q1: Lakehouseとは? A: データレイク(柔軟性+低コスト)+データウェアハウス(ACID+SQL+性能)の利点を統合する次世代データ基盤概念。Iceberg/Delta Lake/Apache Hudi がLakehouse Pattern実装の3大標準。
Q2: Iceberg vs Delta Lake どちらを選ぶ? A: ①ベンダー中立+全クラウド+Snowflake/BigQuery対応→Iceberg、②Databricks中心+Apache Spark密結合→Delta Lake、③業界トレンド2024-2026年Iceberg優位、で住み分け。Iceberg勝利の見込みが業界予測。
Q3: 自宅で学習開始するには? A: ①Python pyiceberg+SQLite Catalog(最小構成)、②Apache Spark+Iceberg local mode、③AWS Athena Iceberg+S3(クラウド無料枠)、の3段階で段階的学習推奨。