본문 바로가기
Data#Data#Lake조회 1

Data Lake란?

정의

정형·비정형 데이터를 원본 그대로 저장하는 대용량 스토리지. S3·GCS 기반.

다른 표현데이터 레이크

Data Lake란?

Warehouse와 달리 데이터 포맷·스키마를 가리지 않고 그대로 저장하는 대용량 저장소다.

특징

  • S3·GCS·Azure Blob이 저장 기반
  • Parquet·ORC·Avro 포맷
  • Spark·Presto·Trino로 쿼리
  • 저장 비용 극저

단점

관리 없이 방치하면 Data Swamp(늪)이 됨.

🔗 함께 보면 좋은 용어

Data 전체 →