본문 바로가기
Q&A2026년 5월 29일1분 읽기

Cloudflare Workers AI Llama 5 — fine-tune 업로드 후 첫 호출이 너무 느려요

한상우
조회 245댓글 2

Cloudflare Workers AI에 Llama 5 8B fine-tune weights를 업로드해서 한국어 챗봇 백엔드로 쓰고 있습니다. 정확도는 만족인데 첫 호출이 12초 걸립니다. 이후 호출은 0.5초로 정상.

현상

  • region별로 콜드 가중치 로딩 — 처음 호출하는 region에서 매번 12초
  • 한국 사용자는 서울 PoP에서 매일 처음 호출 시 12초
  • 5분간 호출 없으면 다시 콜드

사용자가 매일 처음 챗봇 열 때 12초 기다리게 할 수는 없는데, 어떻게 우회하나요? Pre-warming 가능한 패턴 있을까요?

댓글 0

아직 댓글이 없습니다.
Ctrl+Enter로 등록