본문 바로가기

📊

Data — 348개 용어

ML·데이터 파이프라인·ETL·Warehouse·MLOps·분석 엔진

임베딩 모델 선택👁 216

OpenAI·Cohere·BGE·ko-sroberta 등.

데이터 품질 프레임워크👁 210

Great Expectations·Soda·dbt tests·Elementary.

데이터 레이크 파일 포맷👁 199

Parquet·ORC·Avro·Arrow. 사용 시나리오별 선택.

벡터 검색 벤치마크👁 199

ANN Benchmarks·VectorDBBench·BEIR.

데이터 관측성 플랫폼👁 192

Monte Carlo·Bigeye·Soda·Datafold·Elementary.

모던 데이터 스택 2026👁 172

Snowflake·Databricks·Fabric·BigQuery 중심의 2026년 현황.

Data Pipeline👁 153

소스에서 목적지까지 데이터가 흐르는 자동화 경로. ETL/ELT·스트리밍 모두 포함.

Dave McClure가 만든 스타트업 퍼널. Acquisition·Activation·Retention·Referral·Revenue.

Databricks Notebook👁 145

Databricks의 협업 노트북 환경. Spark·SQL·Python·R 혼용. 버전 관리 통합.

Amplitude👁 137

제품 분석·실험 플랫폼. 행동 분석·제품 주도 성장에 특화.

Apache Superset👁 137

Airbnb 출신의 오픈소스 엔터프라이즈 BI. 기능 많고 커스터마이징 강력.

클라우드 네이티브 메시징. 초저지연·간단함 강조. Go·Rust 작성.

Cube (Semantic Layer)👁 131

SQL 위의 메트릭 정의 레이어. REST·GraphQL·SQL API.

Data Lineage👁 129

데이터가 소스에서 소비까지 어떻게 변환·이동되는지 추적하는 메타데이터.

Data Modeling👁 127

분석 목적에 맞게 테이블·관계를 설계하는 작업. Star Schema·Dimensional Modeling.

Data SLA👁 127

데이터 신선도·정확도·가용성에 대한 서비스 수준 계약.

Rust로 작성된 차세대 데이터프레임 라이브러리. Pandas보다 5~10배 빠름.

Recall@K👁 127

상위 K개 결과에 관련 아이템이 포함된 비율. 추천·검색 기본 지표.

Apache Arrow👁 126

컬럼 지향 인메모리 데이터 포맷 표준. 언어·시스템 간 제로 카피 교환.

오픈소스 Feature Store. Gojek이 시작, 현재 Linux Foundation.

Airbyte👁 124

오픈소스 ELT 도구. 300+ 커넥터로 소스 → Warehouse 동기화.

Fivetran👁 124

관리형 ELT SaaS. 유지보수 없는 데이터 파이프라인. 고가지만 안정적.

Apache Airflow👁 123

오픈소스 워크플로 오케스트레이터. DAG를 Python으로 정의. 데이터 파이프라인 스케줄링 표준.

Data Platform👁 123

데이터 수집·저장·처리·분석을 통합한 인프라. 현대 데이터 팀의 기반.

Product-Led Growth

제품 자체를 마케팅·성장 엔진으로 삼는 전략. 무료 → 유료 전환.

Extract-Transform-Load

데이터를 추출·변환·적재하는 전통적 데이터 파이프라인 패턴.

Kimball 방법론👁 122

Ralph Kimball의 Dimensional Modeling. 상향식·스타 스키마 중심.

OLAP Cube👁 122

차원·측정값으로 미리 집계된 다차원 데이터 구조. 전통 BI의 기반.

Data Observability👁 121

데이터 파이프라인의 신선도·양·스키마·품질을 모니터링하는 분야.

Jupyter👁 121

Python·R·Julia를 대화형으로 실행하는 노트북 환경. 데이터 분석의 표준.

Semantic Layer👁 121

비즈니스 지표를 중앙 정의해 여러 BI·앱에서 재사용하는 추상화 계층. Cube·dbt Semantic Layer.

SQLMesh👁 121

dbt 대안 프레임워크. 가상 데이터 환경·시간 모델링.

Data Enrichment👁 120

기존 데이터에 외부 소스의 정보를 결합해 가치를 높이는 작업.

Data Lakehouse👁 120

Lake의 저장 + Warehouse의 성능을 결합한 아키텍처. Delta Lake, Iceberg, Hudi가 주도.

ETL Pipeline Design👁 120

ETL/ELT 설계 원칙. 멱등성·재실행·체크포인트·모니터링.

Event Streaming👁 120

이벤트 스트림(Kafka·Pulsar)을 기반으로 앱을 설계하는 아키텍처 패러다임.

Modern Data Stack👁 120

2020년 이후 주류 SaaS 조합. Fivetran+dbt+Snowflake+Looker+Hightouch.

Airflow 2+👁 119

Airflow 2.x 메이저 개편. TaskFlow API·Deferrable·Dynamic DAG. 3.0에서 더 현대화.

Analytics Engineer👁 119

dbt로 Warehouse 내 데이터 모델링을 담당하는 신생 역할. 2020년 이후 부상.

Apache Iceberg👁 119

대규모 Data Lake용 오픈 테이블 포맷. Netflix가 오픈소스화. Delta Lake와 경쟁.

Dashboard👁 119

KPI·지표를 시각화해 한눈에 모니터링하는 UI. BI 도구의 주 산출물.

Headless BI👁 119

BI의 지표 정의 계층을 UI와 분리. 여러 프런트(대시보드·앱·AI)가 공통 지표 사용.

Apache Pulsar👁 118

Yahoo가 만든 분산 메시징. Kafka 대안. 스토리지·컴퓨트 분리.

Data Governance👁 118

데이터의 품질·보안·접근 권한·소유권을 관리하는 체계.

Data Observability 지표👁 118

신선도·양·스키마·품질·분포·Lineage 5대 축으로 데이터 건강 측정.

Monte Carlo Data👁 118

데이터 관측성 SaaS 선두. 이상 감지·알림·lineage.

A/B 유의성👁 117

통계적 유의성·검정력·샘플 크기 계산. p-value·신뢰구간·효과 크기.

Amundsen👁 117

Lyft가 오픈소스화한 데이터 발견 UI. DataHub 경쟁.

Delta Lake👁 117

Databricks가 주도하는 Lake 테이블 포맷. ACID, Time Travel, Spark 최적화.

Data Lake👁 116

정형·비정형 데이터를 원본 그대로 저장하는 대용량 스토리지. S3·GCS 기반.

1 / 7다음 →