본문 바로가기
Data#Data#Spark조회 1

Spark DataFrame란?

정의

Spark의 분산 DataFrame API. SQL처럼 편리·Catalyst 최적화.

Spark DataFrame

val df = spark.read.parquet("s3://...")
df.filter($"age" > 18).groupBy("city").count()

Catalyst 옵티마이저가 실행 계획 최적화.

🔗 함께 보면 좋은 용어

Data 전체 →