핵심 요약
Llama 5 405B 멀티모달이 4월 말 공개되며 오픈소스 SOTA가 한 단계 올라갔다. 자체 호스팅 시 8×H200 노드 1대로 동시 입력 16, p50 약 1.8s 응답이 가능. 일간 1.2M 요청을 넘기는 시점에서 OpenAI API 대비 자체 호스팅이 흑자로 전환된다. 그 이하라면 API가 압도적으로 유리.
1. 모델 스펙
총 405B 파라미터(MoE 활성 142B), 비전 인코더 내장, 컨텍스트 256K. 16개 언어 지원, 한국어 MMLU 87.2점. 라이선스는 월 7억 MAU 미만에 한해 상업 사용 가능.
2. 하드웨어 옵션
| 구성 | VRAM | 요청/초 | 월 임대료(클라우드) |
|---|---|---|---|
| 8×H100 80GB | 640GB | 9.2 | $31,400 |
| 8×H200 141GB | 1,128GB | 14.8 | $38,200 |
| 4×B200 192GB | 768GB | 17.3 | $42,600 |
| 2×GH200 NVL2 | 288GB | 5.4 | $18,500 |
3. 추론 엔진 비교
vLLM 1.1, SGLang 0.5, TensorRT-LLM 12 셋을 8×H200으로 측정. SGLang이 토큰/달러 11% 우세지만 vLLM이 운영 안정성·LoRA 핫스왑·로그 호환에서 손이 덜 간다. TensorRT-LLM은 최고 처리량이지만 빌드·디버깅이 어려워 팀 도입 비용이 크다.
4. 손익분기점
# API: $1.0 / 1M input, $4.0 / 1M output (가정)
# 평균 요청: 4K in, 800 out
# 요청당 API 비용 = 4*0.001 + 0.8*0.004 = $0.0072
#
# 8xH200 노드 = $38,200/월
# 손익분기 = 38200 / 0.0072 = 5.3M req/월 = 일 ~177K
# 시간당 운영비 가산 시 일 ~1.2M 이상에서 자체 호스팅 우세
5. 한국어 품질 — Claude/GPT 대비
| 벤치 | Llama 5 405B | Sonnet 4.6 | GPT-5.5 |
|---|---|---|---|
| HAERAE-Bench | 82.4 | 89.1 | 86.7 |
| 코드 (KMMLU-Coding) | 78.6 | 84.5 | 82.0 |
| 요약 한국어 자연스러움(사람 평가) | 3.8/5 | 4.5/5 | 4.3/5 |
한국어 자연스러움은 클로즈드 모델이 여전히 한 단계 위. 그러나 도메인 파인튜닝이 가능한 405B는 사내 데이터 1.5만 건만 학습시켜도 사용자 만족도가 Sonnet 수준에 근접.
6. 자체 호스팅 의사결정 체크
- 데이터 외부 송출 제약 (의료·금융·국방)
- 지속 처리량 일 1M+ 요청
- 도메인 파인튜닝 효익 큰 워크로드
- 위 셋 중 둘 이상이면 자체 호스팅, 아니면 API 권장
자주 묻는 질문
Q. 양자화(INT4)는 어디까지 가능한가? AWQ INT4는 한국어 품질 3%p 하락. INT8(W8A8)이 안정. 4×B200으로는 FP8로도 풀 가동 가능.
Q. 멀티모달 입력 토큰 단가? 비전 토큰은 이미지 768×768당 약 850 토큰. 챗봇 평균 비용이 텍스트 대비 1.4배.

댓글 0