📊
Data — 147개 용어
ML·데이터 파이프라인·ETL·Warehouse·MLOps·분석 엔진
Data Product👁 2
데이터를 제품처럼 취급. SLA·문서·소유자·사용자 경험. Data Mesh 핵심.
Data Profiling👁 2
데이터의 분포·결측·품질을 자동 분석하는 과정. pandas-profiling·ydata-profiling.
Data Quality👁 2
데이터의 정확성·완전성·일관성·적시성을 측정·관리.
Data SLA👁 2
데이터 신선도·정확도·가용성에 대한 서비스 수준 계약.
Data Vault 2.0👁 2
감사·변경 추적·확장성에 최적화된 Warehouse 모델링. Hub-Link-Satellite.
Data Warehouse👁 2
분석용 대규모 구조화 데이터 저장소. OLAP 최적화. Snowflake, BigQuery, Redshift.
DAU / MAU / Ratio👁 2
Daily·Monthly Active Users. DAU/MAU 비율이 제품 참여도 지표.
dbt👁 2
data build tool
Warehouse 내부 SQL 변환을 모델링·테스트·문서화하는 도구. ELT의 T를 담당.
dbt Cloud👁 2
dbt의 매니지드 SaaS. 스케줄링·IDE·CI 통합. 대기업 사용.
Debezium👁 2
Red Hat의 오픈소스 CDC 플랫폼. MySQL·Postgres·Mongo 로그를 Kafka 이벤트로.
Deep Learning👁 2
DL
다층 신경망을 사용하는 ML의 하위 분야. 이미지·음성·NLP에 혁명적 성능.
Delta Lake👁 2
Databricks가 주도하는 Lake 테이블 포맷. ACID, Time Travel, Spark 최적화.
DVC👁 2
Data Version Control
ML용 Git-like 버전 관리. 데이터·모델을 외부 스토리지에 두고 Git으로 참조.
ELT👁 2
Extract-Load-Transform
ETL의 현대 변형. 원본 그대로 적재 후 Warehouse 내부에서 변환. dbt가 대표 도구.
ETL👁 2
Extract-Transform-Load
데이터를 추출·변환·적재하는 전통적 데이터 파이프라인 패턴.
ETL Pipeline Design👁 2
ETL/ELT 설계 원칙. 멱등성·재실행·체크포인트·모니터링.
Event Streaming👁 2
이벤트 스트림(Kafka·Pulsar)을 기반으로 앱을 설계하는 아키텍처 패러다임.
Fact Table👁 2
비즈니스 이벤트(매출·주문·방문)를 기록하는 Warehouse 중심 테이블.
Feast👁 2
오픈소스 Feature Store. Gojek이 시작, 현재 Linux Foundation.
Feature Attribution👁 2
어떤 기능이 전환·리텐션에 기여했는지 분석. 인과 추론과 연관.
Feature Engineering👁 2
원본 데이터에서 모델 성능에 도움되는 특성을 설계·추출하는 작업. 전통 ML의 핵심.
Feature Store👁 2
ML 피처를 저장·공유·서빙하는 플랫폼. 학습-서빙 간 일관성 보장.
Fivetran👁 2
관리형 ELT SaaS. 유지보수 없는 데이터 파이프라인. 고가지만 안정적.
Funnel Analysis👁 2
사용자가 목표(구매·가입)에 도달하기까지 단계별 이탈률 분석.
Funnel Drop-off👁 2
퍼널 각 단계의 이탈률 분석. 가장 큰 드롭 지점이 개선 우선순위.
GE Test Suite👁 2
Great Expectations의 expectation 묶음. 재사용·CI 통합.
Google Colab👁 2
Google의 무료 Jupyter 호스팅. GPU·TPU 접근 가능. ML 튜토리얼·프로토타입 표준.
Great Expectations👁 2
오픈소스 데이터 품질 테스트 프레임워크. 데이터에 "기대치"를 코드로 표현.
Headless BI👁 2
BI의 지표 정의 계층을 UI와 분리. 여러 프런트(대시보드·앱·AI)가 공통 지표 사용.
Heap Analytics👁 2
자동 이벤트 추적 분석 도구. SDK 심으면 모든 UI 이벤트 자동 수집.
HTAP👁 2
Hybrid Transactional/Analytical Processing
OLTP와 OLAP를 같은 DB에서 처리하는 하이브리드 모델. TiDB·SingleStore·CockroachDB.
Hugging Face👁 2
ML 모델·데이터셋·앱의 허브. "ML계의 GitHub". Transformers 라이브러리 포함.
Inmon 방법론👁 2
Bill Inmon의 "Corporate Information Factory". 하향식·3NF 중앙 Warehouse.
Kafka Streams👁 2
Kafka 내장 스트림 처리 라이브러리. JVM 앱에 포함해 사용.
Kimball 방법론👁 2
Ralph Kimball의 Dimensional Modeling. 상향식·스타 스키마 중심.
KPI👁 2
Key Performance Indicator
비즈니스 목표를 측정하는 핵심 지표. 매출·MAU·Churn·NPS 등.
ksqlDB👁 2
Kafka 스트림에 SQL로 쿼리하는 엔진. Confluent 제공.
Kubeflow👁 2
Kubernetes 기반 ML 플랫폼. 학습·튜닝·서빙을 K8s 네이티브로.
Looker👁 2
Google이 인수한 엔터프라이즈 BI. LookML로 데이터 모델링. Semantic Layer 선구자.
Machine Learning👁 2
ML
데이터로부터 패턴을 학습해 예측·분류하는 AI의 하위 분야. 지도·비지도·강화학습으로 나뉨.
Master Data👁 2
조직의 핵심 엔티티(고객·상품·직원) 정보. 여러 시스템 간 일관성 필요.
Materialize👁 2
실시간 스트리밍 SQL 엔진. Kafka 이벤트를 SQL view로 계속 갱신.
Metabase👁 2
오픈소스 BI. 비기술자도 쉽게 쿼리·대시보드 제작. 설치 10분.
Metaflow👁 2
Netflix가 만든 ML 파이프라인 프레임워크. Python 클래스 기반, AWS 통합.
Metric Layer👁 2
비즈니스 지표를 중앙 정의해 여러 BI 툴이 일관된 값 사용. Cube·dbt Semantic Layer·MetricFlow.
Mixpanel👁 2
제품 분석 SaaS의 대표. 이벤트 기반 퍼널·리텐션·코호트.
ML 평가 지표 선택👁 2
분류·회귀·랭킹·생성 각기 다른 지표. 비즈니스 목표와 정렬 필수.
MLflow👁 2
오픈소스 ML 수명 주기 관리 도구. 실험 추적·모델 레지스트리·배포.
MLOps👁 2
ML 모델의 개발·배포·모니터링을 DevOps처럼 체계화한 실천. CI/CD + 데이터·모델 버전 관리.
Monte Carlo Data👁 2
데이터 관측성 SaaS 선두. 이상 감지·알림·lineage.