📊
Data — 147개 용어
ML·데이터 파이프라인·ETL·Warehouse·MLOps·분석 엔진
AARRR👁 7
Pirate Metrics
Dave McClure가 만든 스타트업 퍼널. Acquisition·Activation·Retention·Referral·Revenue.
A/B 유의성👁 7
통계적 유의성·검정력·샘플 크기 계산. p-value·신뢰구간·효과 크기.
Airbyte👁 7
오픈소스 ELT 도구. 300+ 커넥터로 소스 → Warehouse 동기화.
Airflow 2+👁 7
Airflow 2.x 메이저 개편. TaskFlow API·Deferrable·Dynamic DAG. 3.0에서 더 현대화.
Amplitude👁 7
제품 분석·실험 플랫폼. 행동 분석·제품 주도 성장에 특화.
Amundsen👁 7
Lyft가 오픈소스화한 데이터 발견 UI. DataHub 경쟁.
Apache Airflow👁 7
오픈소스 워크플로 오케스트레이터. DAG를 Python으로 정의. 데이터 파이프라인 스케줄링 표준.
Analytics Engineer👁 4
dbt로 Warehouse 내 데이터 모델링을 담당하는 신생 역할. 2020년 이후 부상.
Apache Arrow👁 4
컬럼 지향 인메모리 데이터 포맷 표준. 언어·시스템 간 제로 카피 교환.
Apache Flink👁 4
저지연 실시간 스트림 처리 엔진. Kafka와 함께 이벤트 스트리밍 스택의 양대 축.
Jupyter👁 4
Python·R·Julia를 대화형으로 실행하는 노트북 환경. 데이터 분석의 표준.
Modern Data Stack👁 4
2020년 이후 주류 SaaS 조합. Fivetran+dbt+Snowflake+Looker+Hightouch.
Polars👁 4
Rust로 작성된 차세대 데이터프레임 라이브러리. Pandas보다 5~10배 빠름.
Apache Iceberg👁 3
대규모 Data Lake용 오픈 테이블 포맷. Netflix가 오픈소스화. Delta Lake와 경쟁.
Apache Kafka👁 2
분산 스트리밍 플랫폼. 대용량 이벤트 처리의 사실상 표준. LinkedIn이 오픈소스화.
Apache Pulsar👁 2
Yahoo가 만든 분산 메시징. Kafka 대안. 스토리지·컴퓨트 분리.
Apache Spark👁 2
분산 빅데이터 처리 엔진. Hadoop MapReduce 대체. Python·Scala·SQL 지원.
Apache Superset👁 2
Airbnb 출신의 오픈소스 엔터프라이즈 BI. 기능 많고 커스터마이징 강력.
Baseline Model👁 2
실험의 기준이 되는 단순 모델. Majority·Random·간단한 규칙.
BI👁 2
Business Intelligence
비즈니스 데이터 분석·시각화로 의사결정을 돕는 플랫폼. Tableau·Power BI·Looker.
BigQuery👁 2
Google Cloud의 서버리스 Data Warehouse. Petabyte급 SQL 분석.
CDP👁 2
Customer Data Platform
여러 소스의 고객 데이터를 통합·세분화·활성화. Segment·mParticle·Rudderstack.
Change Data Capture👁 2
CDC
DB의 INSERT/UPDATE/DELETE를 실시간으로 캡처해 다른 시스템에 전파하는 기법.
Churn Rate👁 2
이탈률. 일정 기간 동안 서비스를 떠난 사용자 비율. SaaS의 핵심 지표.
ClickStream👁 2
사용자의 웹·앱 클릭·탐색 이벤트 데이터. 제품 분석의 핵심 원료.
Cohort Analysis👁 2
공통 속성의 사용자 그룹을 시간에 따라 추적하는 분석. 리텐션·LTV에 필수.
CUPED👁 2
실험 분산을 줄여 검정력을 높이는 기법. Microsoft가 A/B에 적용.
Dagster👁 2
데이터 애셋 중심 오케스트레이터. Airflow·Prefect 대비 타입·테스트 강함.
Dashboard👁 2
KPI·지표를 시각화해 한눈에 모니터링하는 UI. BI 도구의 주 산출물.
Data 팀 역할👁 2
Data Engineer·Analytics Engineer·Data Scientist·ML Engineer·Data Analyst 구분.
Data Activation👁 2
분석 인사이트를 실제 운영에 반영. Hightouch·Census의 핵심 메시지.
Databricks👁 2
Apache Spark 창시자들이 만든 통합 데이터·AI 플랫폼. Lakehouse 개념 주도.
Databricks Notebook👁 2
Databricks의 협업 노트북 환경. Spark·SQL·Python·R 혼용. 버전 관리 통합.
Data Catalog👁 2
조직의 모든 데이터 자산을 카탈로그화해 검색·이해·거버넌스를 돕는 도구.
Data Cleaning👁 2
raw 데이터의 결측·이상·중복·오타를 정리하는 작업. 데이터 사이언스 시간의 80%.
Data Contract👁 2
데이터 생산자와 소비자 간 스키마·품질·SLA 계약. 데이터 품질 문제 예방.
Data Enrichment👁 2
기존 데이터에 외부 소스의 정보를 결합해 가치를 높이는 작업.
Datafold👁 2
데이터 차이(diff)·리그레션 테스트 SaaS. PR마다 자동 데이터 검증.
Data Governance👁 2
데이터의 품질·보안·접근 권한·소유권을 관리하는 체계.
DataHub👁 2
LinkedIn이 오픈소스화한 데이터 카탈로그·거버넌스. Metadata graph.
Data Lake👁 2
정형·비정형 데이터를 원본 그대로 저장하는 대용량 스토리지. S3·GCS 기반.
Data Lakehouse👁 2
Lake의 저장 + Warehouse의 성능을 결합한 아키텍처. Delta Lake, Iceberg, Hudi가 주도.
Data Lineage👁 2
데이터가 소스에서 소비까지 어떻게 변환·이동되는지 추적하는 메타데이터.
Data Mart👁 2
특정 부서·주제에 특화된 작은 Warehouse. 분석 속도·보안 분리.
Data Mesh👁 2
중앙 데이터 팀이 아닌 도메인 팀이 데이터를 "제품처럼" 소유하는 조직·기술 아키텍처.
Data Modeling👁 2
분석 목적에 맞게 테이블·관계를 설계하는 작업. Star Schema·Dimensional Modeling.
Data Observability👁 2
데이터 파이프라인의 신선도·양·스키마·품질을 모니터링하는 분야.
Data Observability 지표👁 2
신선도·양·스키마·품질·분포·Lineage 5대 축으로 데이터 건강 측정.
Data Pipeline👁 2
소스에서 목적지까지 데이터가 흐르는 자동화 경로. ETL/ELT·스트리밍 모두 포함.
Data Platform👁 2
데이터 수집·저장·처리·분석을 통합한 인프라. 현대 데이터 팀의 기반.
1 / 3다음 →