Cloudflare Workers AI에 Llama 5 8B fine-tune weights를 업로드해서 한국어 챗봇 백엔드로 쓰고 있습니다. 정확도는 만족인데 첫 호출이 12초 걸립니다. 이후 호출은 0.5초로 정상.
현상
- region별로 콜드 가중치 로딩 — 처음 호출하는 region에서 매번 12초
- 한국 사용자는 서울 PoP에서 매일 처음 호출 시 12초
- 5분간 호출 없으면 다시 콜드
사용자가 매일 처음 챗봇 열 때 12초 기다리게 할 수는 없는데, 어떻게 우회하나요? Pre-warming 가능한 패턴 있을까요?
댓글 0