본문 바로가기
📊

Data 348개 용어

ML·데이터 파이프라인·ETL·Warehouse·MLOps·분석 엔진

Segment👁 59
이벤트 추적·전달 플랫폼. 하나의 SDK로 여러 destination에 분배.
Dagster👁 58
데이터 애셋 중심 오케스트레이터. Airflow·Prefect 대비 타입·테스트 강함.
dbt Sources👁 58
원본 raw 테이블을 dbt 프로젝트에서 명명·테스트.
NATS JetStream👁 58
NATS의 영속성·재시도·스트림. Kafka 경량 대안.
NDCG👁 58
Normalized Discounted Cumulative Gain
검색·추천의 순위 품질 지표. 상위 순위 가중치.
PostHog👁 58
오픈소스 제품 분석 플랫폼. 이벤트·퍼널·리텐션·Feature Flag 통합.
Power BI👁 58
Microsoft의 BI 도구. Office 365 통합. 엔터프라이즈·Tableau 대안.
Prefect👁 58
현대적 워크플로 오케스트레이터. Airflow의 Python 네이티브 대안.
Prefect 3👁 58
2024년 메이저 업데이트. 동기 API·빠른 실행·엔진 리팩터.
Profile-based Reverse ETL👁 58
Rudderstack Profiles처럼 dbt 모델이 프로파일을 생성.
scikit-learn👁 58
Python의 전통 ML 라이브러리. 분류·회귀·클러스터링·전처리 포괄.
Snowflake Cortex👁 58
Snowflake의 AI·LLM 기능. Cortex Search·Cortex Analyst.
Tecton👁 58
Feature Store SaaS. Feast 창시자들이 창업.
Unity Catalog Open Source👁 58
Databricks가 2024년 오픈소스화. 카탈로그·거버넌스.
Change Data Capture👁 57
CDC
DB의 INSERT/UPDATE/DELETE를 실시간으로 캡처해 다른 시스템에 전파하는 기법.
Data 팀 역할👁 57
Data Engineer·Analytics Engineer·Data Scientist·ML Engineer·Data Analyst 구분.
Metric Layer👁 57
비즈니스 지표를 중앙 정의해 여러 BI 툴이 일관된 값 사용. Cube·dbt Semantic Layer·MetricFlow.
ML 평가 지표 선택👁 57
분류·회귀·랭킹·생성 각기 다른 지표. 비즈니스 목표와 정렬 필수.
MLOps👁 57
ML 모델의 개발·배포·모니터링을 DevOps처럼 체계화한 실천. CI/CD + 데이터·모델 버전 관리.
NumPy👁 57
Python 수치 계산의 기반 라이브러리. 배열·행렬·벡터 연산.
Preset.io👁 57
Superset의 매니지드 SaaS. 엔터프라이즈 기능 추가.
Presto/Trino👁 57
분산 SQL 쿼리 엔진. Facebook이 시작(Presto), 창시자들이 포크한 Trino가 주류.
Reverse ETL👁 57
Warehouse의 정제된 데이터를 다시 SaaS(Salesforce·Mailchimp)로 동기화.
Reverse ETL Use Cases👁 57
Warehouse 데이터를 SaaS(Salesforce·Mailchimp)로 동기화해 실행 가능하게 만듦.
Spark RDD👁 57
Spark의 저수준 분산 컬렉션. DataFrame 이전 세대.
Unsupervised Learning👁 57
레이블 없이 데이터의 구조·패턴을 학습. 클러스터링·차원 축소가 대표.
Zero-ETL👁 57
복사 없이 소스 DB를 직접 Warehouse에서 쿼리. AWS가 제안.
Dagster Pipes👁 56
외부 프로세스(Spark·Databricks·Kubernetes) 통합 프로토콜.
Data Clean Room👁 56
여러 회사가 데이터를 공유 없이 조인·분석. 광고·의료.
Data Contract👁 56
데이터 생산자와 소비자 간 스키마·품질·SLA 계약. 데이터 품질 문제 예방.
ELT👁 56
Extract-Load-Transform
ETL의 현대 변형. 원본 그대로 적재 후 Warehouse 내부에서 변환. dbt가 대표 도구.
Flink CDC👁 56
Ververica 오픈 CDC 커넥터. MySQL·PG·Mongo를 Flink 소스로.
Lightdash👁 56
dbt 기반 OSS BI. dbt 메트릭을 대시보드로.
Medallion Architecture👁 56
Databricks의 Bronze·Silver·Gold 3단계 데이터 레이크.
Modern ETL/ELT 선택👁 56
Warehouse 내 SQL 변환이 강력해져 ELT가 주류.
OpenLineage👁 56
데이터 리니지 오픈 표준. Marquez·OpenMetadata·DataHub 지원.
Pandas👁 56
Python의 데이터프레임 라이브러리. 분석·전처리의 사실상 표준.
Parquet👁 56
컬럼 지향 파일 포맷. Lake·Warehouse 표준. 압축·쿼리 효율 탁월.
Redpanda👁 56
Kafka 호환 스트리밍 엔진. C++·thread-per-core.
Redshift ML👁 56
AWS Redshift에서 SQL로 SageMaker 모델 학습·추론.
Steampipe👁 56
클라우드 API를 SQL로 쿼리하는 도구. AWS·GCP·Azure·Kubernetes.
Tableau👁 56
Salesforce가 인수한 BI의 거인. 드래그앤드롭 시각화 선구자.
Tabular Data👁 56
행·열로 구성된 구조화 데이터. DB 테이블·CSV·Excel. 전통 ML의 주 대상.
Unity vs Polaris👁 56
Databricks Unity Catalog와 Snowflake Polaris 대결.
Apache Beam👁 55
배치·스트리밍 통합 프로그래밍 모델. Dataflow·Flink·Spark 러너.
Apache Hudi👁 55
Lakehouse 테이블 포맷. Upsert·Delete·Time Travel. Iceberg·Delta 경쟁.
Apache Spark👁 55
분산 빅데이터 처리 엔진. Hadoop MapReduce 대체. Python·Scala·SQL 지원.
BigQuery Omni👁 55
AWS·Azure 데이터를 BigQuery에서 쿼리. 멀티 클라우드.
Cube.dev👁 55
Headless BI·Semantic Layer. SQL·REST·GraphQL 노출.
Databricks👁 55
Apache Spark 창시자들이 만든 통합 데이터·AI 플랫폼. Lakehouse 개념 주도.