📊
Data — 348개 용어
ML·데이터 파이프라인·ETL·Warehouse·MLOps·분석 엔진
Amplitude👁 63
제품 분석·실험 플랫폼. 행동 분석·제품 주도 성장에 특화.
데이터 품질 프레임워크👁 62
Great Expectations·Soda·dbt tests·Elementary.
임베딩 모델 선택👁 59
OpenAI·Cohere·BGE·ko-sroberta 등.
AARRR👁 58
Pirate Metrics
Dave McClure가 만든 스타트업 퍼널. Acquisition·Activation·Retention·Referral·Revenue.
Data Pipeline👁 57
소스에서 목적지까지 데이터가 흐르는 자동화 경로. ETL/ELT·스트리밍 모두 포함.
Apache Airflow👁 56
오픈소스 워크플로 오케스트레이터. DAG를 Python으로 정의. 데이터 파이프라인 스케줄링 표준.
Databricks Notebook👁 56
Databricks의 협업 노트북 환경. Spark·SQL·Python·R 혼용. 버전 관리 통합.
Data Lineage👁 56
데이터가 소스에서 소비까지 어떻게 변환·이동되는지 추적하는 메타데이터.
A/B 유의성👁 55
통계적 유의성·검정력·샘플 크기 계산. p-value·신뢰구간·효과 크기.
Data Enrichment👁 54
기존 데이터에 외부 소스의 정보를 결합해 가치를 높이는 작업.
데이터 레이크 파일 포맷👁 53
Parquet·ORC·Avro·Arrow. 사용 시나리오별 선택.
Airflow 2+👁 53
Airflow 2.x 메이저 개편. TaskFlow API·Deferrable·Dynamic DAG. 3.0에서 더 현대화.
Dashboard👁 53
KPI·지표를 시각화해 한눈에 모니터링하는 UI. BI 도구의 주 산출물.
Data SLA👁 53
데이터 신선도·정확도·가용성에 대한 서비스 수준 계약.
벡터 검색 벤치마크👁 52
ANN Benchmarks·VectorDBBench·BEIR.
Airbyte👁 52
오픈소스 ELT 도구. 300+ 커넥터로 소스 → Warehouse 동기화.
Apache Arrow👁 52
컬럼 지향 인메모리 데이터 포맷 표준. 언어·시스템 간 제로 카피 교환.
Apache Superset👁 52
Airbnb 출신의 오픈소스 엔터프라이즈 BI. 기능 많고 커스터마이징 강력.
ETL👁 52
Extract-Transform-Load
데이터를 추출·변환·적재하는 전통적 데이터 파이프라인 패턴.
Analytics Engineer👁 51
dbt로 Warehouse 내 데이터 모델링을 담당하는 신생 역할. 2020년 이후 부상.
Data Modeling👁 51
분석 목적에 맞게 테이블·관계를 설계하는 작업. Star Schema·Dimensional Modeling.
Modern Data Stack👁 51
2020년 이후 주류 SaaS 조합. Fivetran+dbt+Snowflake+Looker+Hightouch.
Apache Iceberg👁 50
대규모 Data Lake용 오픈 테이블 포맷. Netflix가 오픈소스화. Delta Lake와 경쟁.
Apache Pulsar👁 50
Yahoo가 만든 분산 메시징. Kafka 대안. 스토리지·컴퓨트 분리.
Event Streaming👁 50
이벤트 스트림(Kafka·Pulsar)을 기반으로 앱을 설계하는 아키텍처 패러다임.
Fivetran👁 50
관리형 ELT SaaS. 유지보수 없는 데이터 파이프라인. 고가지만 안정적.
Kimball 방법론👁 50
Ralph Kimball의 Dimensional Modeling. 상향식·스타 스키마 중심.
NATS👁 50
클라우드 네이티브 메시징. 초저지연·간단함 강조. Go·Rust 작성.
OLAP Cube👁 50
차원·측정값으로 미리 집계된 다차원 데이터 구조. 전통 BI의 기반.
데이터 관측성 플랫폼👁 49
Monte Carlo·Bigeye·Soda·Datafold·Elementary.
Amundsen👁 49
Lyft가 오픈소스화한 데이터 발견 UI. DataHub 경쟁.
Jupyter👁 49
Python·R·Julia를 대화형으로 실행하는 노트북 환경. 데이터 분석의 표준.
Recall@K👁 49
상위 K개 결과에 관련 아이템이 포함된 비율. 추천·검색 기본 지표.
Data Catalog👁 48
조직의 모든 데이터 자산을 카탈로그화해 검색·이해·거버넌스를 돕는 도구.
Data Observability👁 48
데이터 파이프라인의 신선도·양·스키마·품질을 모니터링하는 분야.
Data Observability 지표👁 48
신선도·양·스키마·품질·분포·Lineage 5대 축으로 데이터 건강 측정.
Data Platform👁 48
데이터 수집·저장·처리·분석을 통합한 인프라. 현대 데이터 팀의 기반.
Data Profiling👁 48
데이터의 분포·결측·품질을 자동 분석하는 과정. pandas-profiling·ydata-profiling.
ETL Pipeline Design👁 48
ETL/ELT 설계 원칙. 멱등성·재실행·체크포인트·모니터링.
Fact Table👁 48
비즈니스 이벤트(매출·주문·방문)를 기록하는 Warehouse 중심 테이블.
Feast👁 48
오픈소스 Feature Store. Gojek이 시작, 현재 Linux Foundation.
PLG👁 48
Product-Led Growth
제품 자체를 마케팅·성장 엔진으로 삼는 전략. 무료 → 유료 전환.
Apache Flink👁 47
저지연 실시간 스트림 처리 엔진. Kafka와 함께 이벤트 스트리밍 스택의 양대 축.
Data Lakehouse👁 47
Lake의 저장 + Warehouse의 성능을 결합한 아키텍처. Delta Lake, Iceberg, Hudi가 주도.
DAU / MAU / Ratio👁 47
Daily·Monthly Active Users. DAU/MAU 비율이 제품 참여도 지표.
Feature Engineering👁 47
원본 데이터에서 모델 성능에 도움되는 특성을 설계·추출하는 작업. 전통 ML의 핵심.
Headless BI👁 47
BI의 지표 정의 계층을 UI와 분리. 여러 프런트(대시보드·앱·AI)가 공통 지표 사용.
Monte Carlo Data👁 47
데이터 관측성 SaaS 선두. 이상 감지·알림·lineage.
Polars👁 47
Rust로 작성된 차세대 데이터프레임 라이브러리. Pandas보다 5~10배 빠름.
모던 데이터 스택 2026👁 46
Snowflake·Databricks·Fabric·BigQuery 중심의 2026년 현황.
1 / 7다음 →