데이터 레이크하우스

개요

데이터 레이크하우스(Data Lakehouse)는 데이터 레이크의 유연성 + 데이터 웨어하우스의 성능/ACID를 결합한 아키텍처입니다. 핵심은 오픈 테이블 포맷(Delta Lake, Apache Iceberg, Apache Hudi)으로, 오브젝트 스토리지(S3, GCS) 위에서 데이터 웨어하우스급 쿼리 성능을 제공합니다.

아키텍처 비교

데이터 레이크                데이터 웨어하우스            데이터 레이크하우스
──────────                ──────────────            ──────────────
S3/GCS에 파일 저장          전용 스토리지                S3/GCS + 오픈 테이블 포맷
스키마 없음 (Schema-on-Read) 엄격한 스키마               스키마 적용 + 유연성
ACID 없음                  ACID 보장                  ACID 보장
저비용, 대용량              고비용, 고성능              저비용 + 고성능
ETL 필요                   SQL 직접                   SQL 직접
Hadoop, Spark              Snowflake, BigQuery        Databricks, Spark

오픈 테이블 포맷

Delta Lake

항목	내용
개발	Databricks (Linux Foundation)
핵심	Spark 생태계 표준, ACID 트랜잭션
스토리지	Parquet + JSON 트랜잭션 로그 (`_delta_log/`)
라이선스	Apache 2.0
GitHub	https://github.com/delta-io/delta

특징:

ACID 트랜잭션: 동시 읽기/쓰기 안전
Time Travel: 과거 버전 데이터 조회 (VERSION AS OF 5)
Schema Evolution: 컬럼 추가/변경 자동 처리
Z-Ordering: 멀티 컬럼 데이터 클러스터링 → 쿼리 성능 향상
Change Data Feed (CDF): 변경 데이터 스트림
Liquid Clustering: 자동 데이터 레이아웃 최적화 (Delta 3.0)
Databricks, Spark, Flink, Trino, Presto 등 지원

-- Delta Lake 테이블 생성
CREATE TABLE events
USING DELTA
LOCATION 's3://bucket/events'
AS SELECT * FROM raw_events;
 
-- Time Travel
SELECT * FROM events VERSION AS OF 5;
SELECT * FROM events TIMESTAMP AS OF '2026-01-01';
 
-- MERGE (Upsert)
MERGE INTO target USING source
ON target.id = source.id
WHEN MATCHED THEN UPDATE SET *
WHEN NOT MATCHED THEN INSERT *;

Apache Iceberg

항목	내용
개발	Netflix → Apache Foundation
핵심	벤더 중립, 최고의 메타데이터 관리
스토리지	Parquet/ORC/Avro + 메타데이터 레이어
라이선스	Apache 2.0
GitHub	https://github.com/apache/iceberg

특징:

Hidden Partitioning: 사용자가 파티션 스킴을 몰라도 자동 최적화
Partition Evolution: 파티션 변경 시 기존 데이터 재작성 불필요
Schema Evolution: 안전한 스키마 변경 (ID 기반 컬럼 추적)
Time Travel: 스냅샷 기반 과거 데이터 조회
Branching/Tagging: Git처럼 데이터 브랜치 관리
Row-level Deletes: Copy-on-Write / Merge-on-Read 선택
Spark, Flink, Trino, Presto, Dremio, Snowflake, BigQuery 지원

-- Iceberg 테이블
CREATE TABLE events (
    id BIGINT,
    event_type STRING,
    ts TIMESTAMP
) USING ICEBERG
PARTITIONED BY (days(ts));
 
-- Partition Evolution (파티션 변경, 재작성 불필요)
ALTER TABLE events ADD PARTITION FIELD hours(ts);
 
-- Time Travel
SELECT * FROM events.snapshots;
SELECT * FROM events FOR SYSTEM_TIME AS OF TIMESTAMP '2026-01-01';

Apache Hudi

항목	내용
개발	Uber → Apache Foundation
핵심	증분 처리(Incremental) 특화, CDC 강점
스토리지	Parquet + Avro 로그
라이선스	Apache 2.0

특징:

Copy-on-Write (CoW): 읽기 최적화, 쓰기 시 전체 재작성
Merge-on-Read (MoR): 쓰기 최적화, 읽기 시 머지
Incremental Queries: 마지막 읽기 이후 변경분만 조회
Record-level Index: 레코드 수준 업서트 최적화
CDC(Change Data Capture) 파이프라인에 최적

Lance (LanceDB)

항목	내용
개발	LanceDB
핵심	AI/ML 데이터 특화 컬럼형 포맷
특징	벡터 임베딩 네이티브, 랜덤 액세스 빠름
라이선스	Apache 2.0

이미지, 비디오, 텍스트, 임베딩 혼합 저장
벡터 검색 네이티브 지원
Parquet 대비 100배 빠른 랜덤 액세스
LLM 학습 데이터 관리에 적합

테이블 포맷 비교

항목	Delta Lake	Iceberg	Hudi	Lance
개발	Databricks	Netflix	Uber	LanceDB
ACID	O	O	O	O
Time Travel	O	O (최강)	O	O
파티션 진화	제한적	O (Hidden)	제한적	X
스키마 진화	O	O (ID 기반)	O	O
증분 처리	O	O	O (최강)	X
벡터/ML	X	X	X	O
브랜칭	X	O	X	X
생태계	Databricks	가장 넓음	AWS EMR	ML 특화
적합 용도	Databricks 사용자	벤더 중립	CDC/스트리밍	AI/ML 데이터

레이크하우스 플랫폼

플랫폼	테이블 포맷	특징
Databricks	Delta Lake	레이크하우스 원조, Unity Catalog
Snowflake	Iceberg (네이티브)	클라우드 DW → 레이크하우스 확장
Google BigQuery	BigLake (Iceberg)	서버리스, 멀티클라우드
AWS	Iceberg (Athena/EMR)	S3 + Glue + Athena
Dremio	Iceberg	오픈소스 레이크하우스 엔진
StarRocks	Iceberg/Delta/Hudi	실시간 분석
Apache Doris	멀티 포맷	실시간 OLAP

선택 가이드

상황	추천
Databricks 사용 중	Delta Lake
벤더 중립, 멀티 엔진	Apache Iceberg
CDC/실시간 증분 처리	Apache Hudi
AI/ML 데이터 (벡터, 이미지)	Lance
Snowflake/BigQuery 사용	Iceberg (네이티브 지원)
새 프로젝트	Iceberg (업계 수렴 중)

2025~2026 트렌드

Iceberg로 수렴: Snowflake, BigQuery, Databricks 모두 Iceberg 지원 → 사실상 표준화
Delta Lake ↔ Iceberg 호환: Databricks UniForm으로 Delta ↔ Iceberg 상호 읽기
Apache XTable: 포맷 간 상호 변환 (Delta ↔ Iceberg ↔ Hudi)
AI 레이크하우스: Lance 등 벡터/멀티모달 네이티브 포맷 부상

Bigstones

Explorer

데이터 레이크하우스

개요

아키텍처 비교

오픈 테이블 포맷

Delta Lake

Apache Iceberg

Apache Hudi

Lance (LanceDB)

테이블 포맷 비교

레이크하우스 플랫폼

선택 가이드

2025~2026 트렌드

관련 항목

Graph View

Table of Contents

Backlinks