Data Lake란?
Warehouse와 달리 데이터 포맷·스키마를 가리지 않고 그대로 저장하는 대용량 저장소다.
특징
- S3·GCS·Azure Blob이 저장 기반
- Parquet·ORC·Avro 포맷
- Spark·Presto·Trino로 쿼리
- 저장 비용 극저
단점
관리 없이 방치하면 Data Swamp(늪)이 됨.
정형·비정형 데이터를 원본 그대로 저장하는 대용량 스토리지. S3·GCS 기반.
Warehouse와 달리 데이터 포맷·스키마를 가리지 않고 그대로 저장하는 대용량 저장소다.
관리 없이 방치하면 Data Swamp(늪)이 됨.