핵심 요약
Cloudflare Workers AI에서 Llama 4 8B를 한국어 fine-tune 후 6개월 서빙. 사내 챗봇 비용 월 $2,400 → $940, 한국어 응답 품질 BLEU +18, p50 응답 380ms. PEFT(LoRA) 자체 호스팅 → Workers AI 모델 카탈로그 등재.
1. fine-tune 데이터
- 사내 docs + 기술 블로그 일부, 한국어 12M 토큰
- Q&A 페어 38K, 사내 슬랙 정제
- 코드 주석 한국어 12K
2. 학습
# LoRA r=16, alpha=32, target_modules=q_proj,v_proj
# 3 epoch, batch 4, lr 2e-4
# A100 80GB x 2, 7시간
학습 비용 $186. Workers AI에 weights 업로드.
3. 서빙 비용 비교
| 경로 | 월 비용 | p50 |
|---|---|---|
| Claude Haiku 4.5 (Bedrock) | $2,400 | 748ms |
| Workers AI Llama 4 8B 기본 | $1,180 | 420ms |
| Workers AI fine-tuned | $940 | 380ms |
4. 품질 — 한국어 측정
- 사내 QA 100문항 BLEU: 0.34 → 0.52
- 자주 쓰는 한국어 용어 hallucination: 12% → 3%
- 코드 생성 정확도 유지(영어와 차이 없음)
5. 함정
- edge 서빙이지만 모델 디스크는 region별 caching — cold region 첫 호출 3초
- context window 8K — fine-tune 후도 늘지 않음, RAG 짧게
- 안전 필터 — Cloudflare 자체 필터 한국어 약함, 자체 가드레일 추가
- weights 노출 — Workers AI 등재 시 동일 계정만 사용 가능 옵션 명시

댓글 0