핵심 요약
LLM 호출 관측은 logger를 한 줄 추가하는 일이 아니다. Trace 트리, prompt 버전, 평가 점수, 비용 분기까지 한곳에서 보여야 디버깅이 된다. Phoenix(OSS), LangSmith(SaaS), Helicone(OSS+SaaS) 셋을 3개월 병행 운영한 결과를 정리한다.
1. 비교 한눈에
| Phoenix | LangSmith | Helicone | |
|---|---|---|---|
| 호스팅 | OSS·SaaS 모두 | SaaS 위주 | |
| 트레이스 | OTel 표준 | 독자 + OTel | OTel + 프록시 |
| 가격 | OSS 무료 | $39/사용자/월~ | $25/M req |
| 강점 | 로컬·정밀 평가 | UI·LangGraph 통합 | 비용·캐시 자동 |
2. Phoenix — 로컬 우선
OpenTelemetry 기반이라 벤더 락인 없음. pip install arize-phoenix 한 줄로 시작. notebook 통합이 강력해 실험 단계에 최적. 단, 다인 협업 UI는 SaaS 대비 약함.
3. LangSmith — LangGraph와 쌍
LangGraph 워크플로 시각화·Dataset·평가 자동 실행이 통합돼 있다. 에이전트 다단 trace를 가장 깔끔하게 본다. 단점은 가격과 한국어 검색 약함(트레이스 텍스트 한국어 검색이 느림).
4. Helicone — 프록시 한 방
OpenAI/Anthropic base URL을 helicone으로 바꾸기만 하면 끝. 캐싱·요청 재시도·rate-limit·사용자별 비용 분기까지 자동. 단, agent trace는 약함.
5. 실측 — trace 1M개 보관 비용
| Phoenix self-host | LangSmith Cloud | Helicone | |
|---|---|---|---|
| 저장 비용 | $8(S3) | $390 | $250 |
| p95 검색 응답 | 1.4s | 0.6s | 0.8s |
6. 함께 쓰기
3개월 시행착오 끝에 정착한 조합: 실험 단계 Phoenix → 프로덕션 LangSmith trace + Helicone 프록시 캐시. OTel 표준을 쓰면 한 trace를 두 시스템에 동시 보낼 수 있다.
7. 알람·온콜
비용 급등·오류율·p95 지연을 PagerDuty/Slack으로. LangSmith는 메트릭 알람 기본 제공, Phoenix는 Grafana 연동 필요. 알람 두 시스템 모두 걸어 둘 가치 있음.
자주 묻는 질문
Q. Datadog APM은? Datadog LLM Observability가 빠르게 따라오는 중. 기존 Datadog 사용 중이라면 추가 도입 검토할 가치.

댓글 0