Parquet란?
Apache가 표준화한 컬럼 저장 파일 포맷이다. Hadoop 시절부터 현재 Lake까지 기본.
장점
- 컬럼별 압축 (Snappy, Zstd)
- 필요한 컬럼만 읽음
- 통계·Min/Max로 predicate pushdown
- 스키마 포함
대안·관련
ORC(유사), Arrow IPC(인메모리).
컬럼 지향 파일 포맷. Lake·Warehouse 표준. 압축·쿼리 효율 탁월.
Apache가 표준화한 컬럼 저장 파일 포맷이다. Hadoop 시절부터 현재 Lake까지 기본.
ORC(유사), Arrow IPC(인메모리).