Cloudflare Workers AI — Llama 4 8B 한국어 fine-tune 운영 | 기술노트

핵심 요약

Cloudflare Workers AI에서 Llama 4 8B를 한국어 fine-tune 후 6개월 서빙. 사내 챗봇 비용 월 $2,400 → $940, 한국어 응답 품질 BLEU +18, p50 응답 380ms. PEFT(LoRA) 자체 호스팅 → Workers AI 모델 카탈로그 등재.

1. fine-tune 데이터

사내 docs + 기술 블로그 일부, 한국어 12M 토큰
Q&A 페어 38K, 사내 슬랙 정제
코드 주석 한국어 12K

2. 학습

# LoRA r=16, alpha=32, target_modules=q_proj,v_proj
# 3 epoch, batch 4, lr 2e-4
# A100 80GB x 2, 7시간

학습 비용 $186. Workers AI에 weights 업로드.

3. 서빙 비용 비교

경로	월 비용	p50
Claude Haiku 4.5 (Bedrock)	$2,400	748ms
Workers AI Llama 4 8B 기본	$1,180	420ms
Workers AI fine-tuned	$940	380ms

4. 품질 — 한국어 측정

사내 QA 100문항 BLEU: 0.34 → 0.52
자주 쓰는 한국어 용어 hallucination: 12% → 3%
코드 생성 정확도 유지(영어와 차이 없음)

5. 함정

edge 서빙이지만 모델 디스크는 region별 caching — cold region 첫 호출 3초
context window 8K — fine-tune 후도 늘지 않음, RAG 짧게
안전 필터 — Cloudflare 자체 필터 한국어 약함, 자체 가드레일 추가
weights 노출 — Workers AI 등재 시 동일 계정만 사용 가능 옵션 명시

핵심 요약

1. fine-tune 데이터

2. 학습

3. 서빙 비용 비교

4. 품질 — 한국어 측정

5. 함정

댓글 0