본문 바로가기
Data#Data#Format조회 1

Parquet란?

정의

컬럼 지향 파일 포맷. Lake·Warehouse 표준. 압축·쿼리 효율 탁월.

다른 표현파케이

Parquet란?

Apache가 표준화한 컬럼 저장 파일 포맷이다. Hadoop 시절부터 현재 Lake까지 기본.

장점

  • 컬럼별 압축 (Snappy, Zstd)
  • 필요한 컬럼만 읽음
  • 통계·Min/Max로 predicate pushdown
  • 스키마 포함

대안·관련

ORC(유사), Arrow IPC(인메모리).

🔗 함께 보면 좋은 용어

Data 전체 →