데이터 레이크하우스(Data Lakehouse)는 데이터 레이크의 유연성 + 데이터 웨어하우스의 성능/ACID를 결합한 아키텍처입니다. 핵심은 오픈 테이블 포맷(Delta Lake, Apache Iceberg, Apache Hudi)으로, 오브젝트 스토리지(S3, GCS) 위에서 데이터 웨어하우스급 쿼리 성능을 제공합니다.
아키텍처 비교
데이터 레이크 데이터 웨어하우스 데이터 레이크하우스
────────── ────────────── ──────────────
S3/GCS에 파일 저장 전용 스토리지 S3/GCS + 오픈 테이블 포맷
스키마 없음 (Schema-on-Read) 엄격한 스키마 스키마 적용 + 유연성
ACID 없음 ACID 보장 ACID 보장
저비용, 대용량 고비용, 고성능 저비용 + 고성능
ETL 필요 SQL 직접 SQL 직접
Hadoop, Spark Snowflake, BigQuery Databricks, Spark
-- Delta Lake 테이블 생성CREATE TABLE eventsUSING DELTALOCATION 's3://bucket/events'AS SELECT * FROM raw_events;-- Time TravelSELECT * FROM events VERSION AS OF 5;SELECT * FROM events TIMESTAMP AS OF '2026-01-01';-- MERGE (Upsert)MERGE INTO target USING sourceON target.id = source.idWHEN MATCHED THEN UPDATE SET *WHEN NOT MATCHED THEN INSERT *;
Row-level Deletes: Copy-on-Write / Merge-on-Read 선택
Spark, Flink, Trino, Presto, Dremio, Snowflake, BigQuery 지원
-- Iceberg 테이블CREATE TABLE events ( id BIGINT, event_type STRING, ts TIMESTAMP) USING ICEBERGPARTITIONED BY (days(ts));-- Partition Evolution (파티션 변경, 재작성 불필요)ALTER TABLE events ADD PARTITION FIELD hours(ts);-- Time TravelSELECT * FROM events.snapshots;SELECT * FROM events FOR SYSTEM_TIME AS OF TIMESTAMP '2026-01-01';
Apache Hudi
항목
내용
개발
Uber → Apache Foundation
핵심
증분 처리(Incremental) 특화, CDC 강점
스토리지
Parquet + Avro 로그
라이선스
Apache 2.0
특징:
Copy-on-Write (CoW): 읽기 최적화, 쓰기 시 전체 재작성
Merge-on-Read (MoR): 쓰기 최적화, 읽기 시 머지
Incremental Queries: 마지막 읽기 이후 변경분만 조회
Record-level Index: 레코드 수준 업서트 최적화
CDC(Change Data Capture) 파이프라인에 최적
Lance (LanceDB)
항목
내용
개발
LanceDB
핵심
AI/ML 데이터 특화 컬럼형 포맷
특징
벡터 임베딩 네이티브, 랜덤 액세스 빠름
라이선스
Apache 2.0
이미지, 비디오, 텍스트, 임베딩 혼합 저장
벡터 검색 네이티브 지원
Parquet 대비 100배 빠른 랜덤 액세스
LLM 학습 데이터 관리에 적합
테이블 포맷 비교
항목
Delta Lake
Iceberg
Hudi
Lance
개발
Databricks
Netflix
Uber
LanceDB
ACID
O
O
O
O
Time Travel
O
O (최강)
O
O
파티션 진화
제한적
O (Hidden)
제한적
X
스키마 진화
O
O (ID 기반)
O
O
증분 처리
O
O
O (최강)
X
벡터/ML
X
X
X
O
브랜칭
X
O
X
X
생태계
Databricks
가장 넓음
AWS EMR
ML 특화
적합 용도
Databricks 사용자
벤더 중립
CDC/스트리밍
AI/ML 데이터
레이크하우스 플랫폼
플랫폼
테이블 포맷
특징
Databricks
Delta Lake
레이크하우스 원조, Unity Catalog
Snowflake
Iceberg (네이티브)
클라우드 DW → 레이크하우스 확장
Google BigQuery
BigLake (Iceberg)
서버리스, 멀티클라우드
AWS
Iceberg (Athena/EMR)
S3 + Glue + Athena
Dremio
Iceberg
오픈소스 레이크하우스 엔진
StarRocks
Iceberg/Delta/Hudi
실시간 분석
Apache Doris
멀티 포맷
실시간 OLAP
선택 가이드
상황
추천
Databricks 사용 중
Delta Lake
벤더 중립, 멀티 엔진
Apache Iceberg
CDC/실시간 증분 처리
Apache Hudi
AI/ML 데이터 (벡터, 이미지)
Lance
Snowflake/BigQuery 사용
Iceberg (네이티브 지원)
새 프로젝트
Iceberg (업계 수렴 중)
2025~2026 트렌드
Iceberg로 수렴: Snowflake, BigQuery, Databricks 모두 Iceberg 지원 → 사실상 표준화
Delta Lake ↔ Iceberg 호환: Databricks UniForm으로 Delta ↔ Iceberg 상호 읽기
Apache XTable: 포맷 간 상호 변환 (Delta ↔ Iceberg ↔ Hudi)