본문 바로가기

📊

Data — 348개 용어

ML·데이터 파이프라인·ETL·Warehouse·MLOps·분석 엔진

Fact Table👁 116

비즈니스 이벤트(매출·주문·방문)를 기록하는 Warehouse 중심 테이블.

Data Catalog👁 115

조직의 모든 데이터 자산을 카탈로그화해 검색·이해·거버넌스를 돕는 도구.

Google Colab👁 115

Google의 무료 Jupyter 호스팅. GPU·TPU 접근 가능. ML 튜토리얼·프로토타입 표준.

Kubeflow👁 115

Kubernetes 기반 ML 플랫폼. 학습·튜닝·서빙을 K8s 네이티브로.

Debezium👁 114

Red Hat의 오픈소스 CDC 플랫폼. MySQL·Postgres·Mongo 로그를 Kafka 이벤트로.

Supervised Learning👁 114

입력과 정답(레이블)이 쌍으로 주어진 데이터로 학습하는 ML. 분류·회귀가 대표.

Apache Flink👁 112

저지연 실시간 스트림 처리 엔진. Kafka와 함께 이벤트 스트리밍 스택의 양대 축.

Databricks SQL👁 112

Databricks의 Warehouse 엔드포인트. Photon 엔진·Unity Catalog.

Tableau👁 112

Salesforce가 인수한 BI의 거인. 드래그앤드롭 시각화 선구자.

Apache Spark 4👁 111

2025년 릴리스. ANSI 기본, VARIANT·String Collation·Python Data Source.

Cohort Analysis👁 111

공통 속성의 사용자 그룹을 시간에 따라 추적하는 분석. 리텐션·LTV에 필수.

Feature Engineering👁 111

원본 데이터에서 모델 성능에 도움되는 특성을 설계·추출하는 작업. 전통 ML의 핵심.

Hybrid Transactional/Analytical Processing

OLTP와 OLAP를 같은 DB에서 처리하는 하이브리드 모델. TiDB·SingleStore·CockroachDB.

Hugging Face👁 111

ML 모델·데이터셋·앱의 허브. "ML계의 GitHub". Transformers 라이브러리 포함.

Talend가 인수한 간단한 ELT SaaS. Fivetran보다 저렴하고 작은 팀용.

Feature Store SaaS. Feast 창시자들이 창업.

Materialize👁 110

실시간 스트리밍 SQL 엔진. Kafka 이벤트를 SQL view로 계속 갱신.

Snowflake👁 110

클라우드 네이티브 Data Warehouse. 스토리지와 컴퓨트 분리, 자동 확장으로 업계 선두.

Snowflake Cortex👁 110

Snowflake의 AI·LLM 기능. Cortex Search·Cortex Analyst.

SQLMesh👁 110

dbt 대안. 가상 데이터 환경·자동 증분·플랜 기반.

WarpStream👁 110

컴퓨트·스토리지 분리한 Kafka 호환. S3만으로 운영.

Zero-ETL 통합👁 110

Aurora→Redshift·S3→Snowflake 등 ETL 없는 자동 복제.

Data Profiling👁 109

데이터의 분포·결측·품질을 자동 분석하는 과정. pandas-profiling·ydata-profiling.

TensorFlow👁 109

Google이 개발한 딥러닝 프레임워크. 프로덕션·모바일 배포에 강점.

Zero-ETL👁 109

복사 없이 소스 DB를 직접 Warehouse에서 쿼리. AWS가 제안.

Extract-Load-Transform

ETL의 현대 변형. 원본 그대로 적재 후 Warehouse 내부에서 변환. dbt가 대표 도구.

Streaming ETL👁 108

실시간 스트림에서 ETL. Kafka·Flink·Materialize로 구현.

AWS MWAA / GCP Composer👁 107

관리형 Airflow. AWS·GCP 클라우드 오퍼링.

Data Quality👁 107

데이터의 정확성·완전성·일관성·적시성을 측정·관리.

DAU / MAU / Ratio👁 107

Daily·Monthly Active Users. DAU/MAU 비율이 제품 참여도 지표.

Ray Data👁 107

Ray의 데이터 처리 라이브러리. Spark 대안, Python 네이티브 경험.

Real-time Analytics👁 107

초·분 단위 실시간 분석. Druid·ClickHouse·Pinot.

scikit-learn👁 107

Python의 전통 ML 라이브러리. 분류·회귀·클러스터링·전처리 포괄.

Weights & Biases👁 107

ML 실험 추적·시각화 SaaS. 대시보드·보고서·하이퍼파라미터 스윕 강력.

Customer Data Platform

여러 소스의 고객 데이터를 통합·세분화·활성화. Segment·mParticle·Rudderstack.

Feature Attribution👁 106

어떤 기능이 전환·리텐션에 기여했는지 분석. 인과 추론과 연관.

Heap Analytics👁 106

자동 이벤트 추적 분석 도구. SDK 심으면 모든 UI 이벤트 자동 수집.

Metaflow👁 106

Netflix가 만든 ML 파이프라인 프레임워크. Python 클래스 기반, AWS 통합.

Online Transaction Processing

실시간 트랜잭션 처리 DB 워크로드. 작은 CRUD가 많은 운영 DB.

PostHog👁 106

오픈소스 제품 분석 플랫폼. 이벤트·퍼널·리텐션·Feature Flag 통합.

Tabular Data👁 106

행·열로 구성된 구조화 데이터. DB 테이블·CSV·Excel. 전통 ML의 주 대상.

상용 Feature Platform. 실시간 feature pipeline·서빙.

Prometheus를 글로벌·장기 저장으로 확장. S3 기반.

Train/Val/Test Split👁 106

데이터를 학습·검증·테스트로 나눔. 보통 70/15/15. Data leakage 주의.

Unstructured Data👁 106

정형 스키마 없는 데이터. 텍스트·이미지·음성·비디오. 전체 기업 데이터의 80%+.

Unsupervised Learning👁 106

레이블 없이 데이터의 구조·패턴을 학습. 클러스터링·차원 축소가 대표.

Business Intelligence

비즈니스 데이터 분석·시각화로 의사결정을 돕는 플랫폼. Tableau·Power BI·Looker.

Churn Rate👁 105

이탈률. 일정 기간 동안 서비스를 떠난 사용자 비율. SaaS의 핵심 지표.

실험 분산을 줄여 검정력을 높이는 기법. Microsoft가 A/B에 적용.

Data Observability 5 Pillars👁 105

Freshness·Volume·Distribution·Schema·Lineage.

← 이전2 / 7다음 →