본문 바로가기

📊

Data — 348개 용어

ML·데이터 파이프라인·ETL·Warehouse·MLOps·분석 엔진

data build tool

Warehouse 내부 SQL 변환을 모델링·테스트·문서화하는 도구. ELT의 T를 담당.

dbt Cloud👁 105

dbt의 매니지드 SaaS. 스케줄링·IDE·CI 통합. 대기업 사용.

Feature Store👁 105

ML 피처를 저장·공유·서빙하는 플랫폼. 학습-서빙 간 일관성 보장.

NATS JetStream👁 105

NATS의 영속성·재시도·스트림. Kafka 경량 대안.

Online Analytical Processing

분석·집계 최적화 DB 워크로드. OLTP(트랜잭션)와 대비. 컬럼 저장이 특징.

Redpanda👁 105

Kafka 호환 스트리밍 엔진. C++·thread-per-core.

Reverse ETL👁 105

Warehouse의 정제된 데이터를 다시 SaaS(Salesforce·Mailchimp)로 동기화.

VictoriaMetrics👁 105

Prometheus 호환 TSDB. 장기 저장·메모리 효율.

Data Version Control

ML용 Git-like 버전 관리. 데이터·모델을 외부 스토리지에 두고 Git으로 참조.

Profile-based Reverse ETL👁 104

Rudderstack Profiles처럼 dbt 모델이 프로파일을 생성.

Semantic Search (Data)👁 104

키워드가 아닌 의미 기반 데이터 검색. 임베딩 활용.

Synthetic Data👁 104

실제 데이터 통계 속성을 유지하며 인공 생성한 데이터. 프라이버시·편향 문제 대응.

Tinybird👁 104

ClickHouse 기반 서버리스 실시간 분석 API.

Unity Catalog Open Source👁 104

Databricks가 2024년 오픈소스화. 카탈로그·거버넌스.

Headless Semantic Layer👁 103

dbt Semantic·Cube·AtScale. BI 도구 중립 메트릭 정의.

Materialize👁 103

스트리밍 재료화 뷰 DB. PG 호환 + 실시간.

Normalized Discounted Cumulative Gain

검색·추천의 순위 품질 지표. 상위 순위 가중치.

Power BI👁 103

Microsoft의 BI 도구. Office 365 통합. 엔터프라이즈·Tableau 대안.

Segment👁 103

이벤트 추적·전달 플랫폼. 하나의 SDK로 여러 destination에 분배.

Sigma Computing👁 103

Warehouse 네이티브 BI. 스프레드시트 UX + SQL 파워.

Unity vs Polaris👁 103

Databricks Unity Catalog와 Snowflake Polaris 대결.

Apache Hudi👁 102

Lakehouse 테이블 포맷. Upsert·Delete·Time Travel. Iceberg·Delta 경쟁.

Databricks👁 102

Apache Spark 창시자들이 만든 통합 데이터·AI 플랫폼. Lakehouse 개념 주도.

Data Cleaning👁 102

raw 데이터의 결측·이상·중복·오타를 정리하는 작업. 데이터 사이언스 시간의 80%.

Data Maturity 모델👁 102

조직의 데이터 활용 수준. Reactive→Predictive→Prescriptive.

Data Mesh👁 102

중앙 데이터 팀이 아닌 도메인 팀이 데이터를 "제품처럼" 소유하는 조직·기술 아키텍처.

Inmon 방법론👁 102

Bill Inmon의 "Corporate Information Factory". 하향식·3NF 중앙 Warehouse.

Kafka Streams👁 102

Kafka 내장 스트림 처리 라이브러리. JVM 앱에 포함해 사용.

Metabase👁 102

오픈소스 BI. 비기술자도 쉽게 쿼리·대시보드 제작. 설치 10분.

ML 모델의 개발·배포·모니터링을 DevOps처럼 체계화한 실천. CI/CD + 데이터·모델 버전 관리.

North Star Metric👁 102

조직의 유일한 핵심 지표. 모든 팀이 이것에 정렬.

Python의 데이터프레임 라이브러리. 분석·전처리의 사실상 표준.

SQL 기반 데이터 품질 검사 도구. SodaCL DSL로 선언적 체크.

Streamlit 대시보드👁 102

Python 스크립트로 인터랙티브 웹 앱. 데이터 팀 프로토타입.

Superset vs Metabase👁 102

OSS BI 비교. Superset은 복잡·강력, Metabase는 단순.

Tabular👁 102

Iceberg 창시자들이 창업. 2024년 Databricks가 인수.

Watermark👁 102

스트리밍에서 시점 T까지 이벤트 수신 완료 마커.

BigQuery👁 101

Google Cloud의 서버리스 Data Warehouse. Petabyte급 SQL 분석.

전통 키워드 검색 점수 알고리즘. Elasticsearch·OpenSearch 기본.

Data 팀 역할👁 101

Data Engineer·Analytics Engineer·Data Scientist·ML Engineer·Data Analyst 구분.

Data Contract👁 101

데이터 생산자와 소비자 간 스키마·품질·SLA 계약. 데이터 품질 문제 예방.

Data Mesh 원칙👁 101

도메인 소유권·Data Product·셀프서비스 플랫폼·연합 거버넌스.

MongoDB Atlas Vector Search👁 101

Atlas의 벡터 검색. pgvector·Pinecone 대안.

Python 수치 계산의 기반 라이브러리. 배열·행렬·벡터 연산.

OpenMetadata👁 101

통합 메타데이터 플랫폼. 카탈로그·lineage·품질·거버넌스 한 번에.

RudderStack👁 101

Segment의 오픈소스 대안. Warehouse-first 접근.

Spark RDD👁 101

Spark의 저수준 분산 컬렉션. DataFrame 이전 세대.

Star Schema👁 101

Warehouse의 고전적 설계. 중앙 팩트 테이블 + 여러 디멘션 테이블.

Steampipe👁 101

클라우드 API를 SQL로 쿼리하는 도구. AWS·GCP·Azure·Kubernetes.

Streaming-first Architecture👁 101

배치 대신 스트림을 기본으로. Kappa Architecture.

← 이전3 / 7다음 →