본문 바로가기

Data#Data#Spark조회 19

Spark DataFrame란?

정의

Spark의 분산 DataFrame API. SQL처럼 편리·Catalyst 최적화.

Spark DataFrame

val df = spark.read.parquet("s3://...")
df.filter($"age" > 18).groupBy("city").count()

Catalyst 옵티마이저가 실행 계획 최적화.

🔗 함께 보면 좋은 용어

Data 전체 →

데이터 관측성 플랫폼

Monte Carlo·Bigeye·Soda·Datafold·Elementary.

데이터 레이크 파일 포맷

Parquet·ORC·Avro·Arrow. 사용 시나리오별 선택.

임베딩 모델 선택

OpenAI·Cohere·BGE·ko-sroberta 등.

데이터 품질 프레임워크

Great Expectations·Soda·dbt tests·Elementary.

벡터 검색 벤치마크

ANN Benchmarks·VectorDBBench·BEIR.

모던 데이터 스택 2026

Snowflake·Databricks·Fabric·BigQuery 중심의 2026년 현황.