AI 에이전트 관측 — Phoenix · LangSmith · Helicone 3개월 운영 비교 | 기술노트

핵심 요약

LLM 호출 관측은 logger를 한 줄 추가하는 일이 아니다. Trace 트리, prompt 버전, 평가 점수, 비용 분기까지 한곳에서 보여야 디버깅이 된다. Phoenix(OSS), LangSmith(SaaS), Helicone(OSS+SaaS) 셋을 3개월 병행 운영한 결과를 정리한다.

1. 비교 한눈에

	Phoenix	LangSmith	Helicone
호스팅	OSS·SaaS 모두	SaaS 위주
트레이스	OTel 표준	독자 + OTel	OTel + 프록시
가격	OSS 무료	$39/사용자/월~	$25/M req
강점	로컬·정밀 평가	UI·LangGraph 통합	비용·캐시 자동

2. Phoenix — 로컬 우선

OpenTelemetry 기반이라 벤더 락인 없음. pip install arize-phoenix 한 줄로 시작. notebook 통합이 강력해 실험 단계에 최적. 단, 다인 협업 UI는 SaaS 대비 약함.

3. LangSmith — LangGraph와 쌍

LangGraph 워크플로 시각화·Dataset·평가 자동 실행이 통합돼 있다. 에이전트 다단 trace를 가장 깔끔하게 본다. 단점은 가격과 한국어 검색 약함(트레이스 텍스트 한국어 검색이 느림).

4. Helicone — 프록시 한 방

OpenAI/Anthropic base URL을 helicone으로 바꾸기만 하면 끝. 캐싱·요청 재시도·rate-limit·사용자별 비용 분기까지 자동. 단, agent trace는 약함.

5. 실측 — trace 1M개 보관 비용

	Phoenix self-host	LangSmith Cloud	Helicone
저장 비용	$8(S3)	$390	$250
p95 검색 응답	1.4s	0.6s	0.8s

6. 함께 쓰기

3개월 시행착오 끝에 정착한 조합: 실험 단계 Phoenix → 프로덕션 LangSmith trace + Helicone 프록시 캐시. OTel 표준을 쓰면 한 trace를 두 시스템에 동시 보낼 수 있다.

7. 알람·온콜

비용 급등·오류율·p95 지연을 PagerDuty/Slack으로. LangSmith는 메트릭 알람 기본 제공, Phoenix는 Grafana 연동 필요. 알람 두 시스템 모두 걸어 둘 가치 있음.

자주 묻는 질문

Q. Datadog APM은? Datadog LLM Observability가 빠르게 따라오는 중. 기존 Datadog 사용 중이라면 추가 도입 검토할 가치.