핵심 요약
Datadog 월 청구서 $48K → $9.6K(80% 절감). 핵심은 세 축 — log volume(82% → 14% 인덱싱), trace head sampling(100% → 5%, tail-based로 보강), custom metric cardinality(2.4M → 380K). 1년 사후 정리.
1. Log — Logging without Limits + 인덱싱 분리
모든 로그를 Datadog로 보내되 인덱싱은 14%만. 나머지는 archive(S3, $0.03/GB). 검색 시 rehydrate 가능 → 사후 조사 손실 없음.
# pipeline: route ERROR & status>=400 → index
# 나머지 → archive only
2. Trace — head + tail 샘플링 조합
head sampling 5%, 단 에러·지연 길면 tail-based로 100% 유지. agent 측 설정으로 무손실 가시성.
3. Custom Metric — cardinality 폭발 차단
user_id, request_id를 tag로 — 수백만 unique. 청구서의 hidden killer. 정책: user_id 같은 high-cardinality는 무조건 금지, 대신 log·trace에서 검색.
4. 비용 추이
| 항목 | Before | After |
|---|---|---|
| Log indexing | $22K | $3.1K |
| APM ingestion | $14K | $2.8K |
| Custom metric | $8K | $1.2K |
| Host monitoring | $4K | $2.5K |
5. 함정
- rehydrate cost — archive 검색 시 별도 과금, 자주 검색은 인덱싱이 결국 싸다
- sampling 결정 시점 — head는 trace 시작 시, tail은 종료 후. tail로 가야 에러 100% 보장
- Alert metric — sampling 적용 metric으로 알람 만들면 false-negative, raw 별도 metric
- 계약 단위 — 연간 약정으로 추가 25% 할인, 협상 카드

댓글 0