Claude 4.9 Sonnet에 prompt caching ephemeral 사용. 시스템 + 코드베이스 800K 토큰을 캐싱합니다.
비용 분석 (월 평균)
- cache write — $X (한 번 캐시 만들 때)
- cache hit — $X/10 (90% 절감)
- 5분 TTL 지나고 다시 만들 때 — cache write 다시 발생
사용자가 분산되어 5분 안에 같은 prompt 재사용이 적은 워크로드(80% miss). 비용이 일반 호출 대비 1.25배.
cache가 비용 절감 못 하는 워크로드면 차라리 끄는 게 나을까요?
댓글 0