Llama 5 405B Multimodal — 자체 호스팅 비용·성능 벤치마크 | 기술노트

핵심 요약

Llama 5 405B 멀티모달이 4월 말 공개되며 오픈소스 SOTA가 한 단계 올라갔다. 자체 호스팅 시 8×H200 노드 1대로 동시 입력 16, p50 약 1.8s 응답이 가능. 일간 1.2M 요청을 넘기는 시점에서 OpenAI API 대비 자체 호스팅이 흑자로 전환된다. 그 이하라면 API가 압도적으로 유리.

1. 모델 스펙

총 405B 파라미터(MoE 활성 142B), 비전 인코더 내장, 컨텍스트 256K. 16개 언어 지원, 한국어 MMLU 87.2점. 라이선스는 월 7억 MAU 미만에 한해 상업 사용 가능.

2. 하드웨어 옵션

구성	VRAM	요청/초	월 임대료(클라우드)
8×H100 80GB	640GB	9.2	$31,400
8×H200 141GB	1,128GB	14.8	$38,200
4×B200 192GB	768GB	17.3	$42,600
2×GH200 NVL2	288GB	5.4	$18,500

3. 추론 엔진 비교

vLLM 1.1, SGLang 0.5, TensorRT-LLM 12 셋을 8×H200으로 측정. SGLang이 토큰/달러 11% 우세지만 vLLM이 운영 안정성·LoRA 핫스왑·로그 호환에서 손이 덜 간다. TensorRT-LLM은 최고 처리량이지만 빌드·디버깅이 어려워 팀 도입 비용이 크다.

4. 손익분기점

# API: $1.0 / 1M input, $4.0 / 1M output (가정)
# 평균 요청: 4K in, 800 out
# 요청당 API 비용 = 4*0.001 + 0.8*0.004 = $0.0072
#
# 8xH200 노드 = $38,200/월
# 손익분기 = 38200 / 0.0072 = 5.3M req/월 = 일 ~177K
# 시간당 운영비 가산 시 일 ~1.2M 이상에서 자체 호스팅 우세

5. 한국어 품질 — Claude/GPT 대비

벤치	Llama 5 405B	Sonnet 4.6	GPT-5.5
HAERAE-Bench	82.4	89.1	86.7
코드 (KMMLU-Coding)	78.6	84.5	82.0
요약 한국어 자연스러움(사람 평가)	3.8/5	4.5/5	4.3/5

한국어 자연스러움은 클로즈드 모델이 여전히 한 단계 위. 그러나 도메인 파인튜닝이 가능한 405B는 사내 데이터 1.5만 건만 학습시켜도 사용자 만족도가 Sonnet 수준에 근접.

6. 자체 호스팅 의사결정 체크

데이터 외부 송출 제약 (의료·금융·국방)
지속 처리량 일 1M+ 요청
도메인 파인튜닝 효익 큰 워크로드
위 셋 중 둘 이상이면 자체 호스팅, 아니면 API 권장

자주 묻는 질문

Q. 양자화(INT4)는 어디까지 가능한가? AWQ INT4는 한국어 품질 3%p 하락. INT8(W8A8)이 안정. 4×B200으로는 FP8로도 풀 가동 가능.

Q. 멀티모달 입력 토큰 단가? 비전 토큰은 이미지 768×768당 약 850 토큰. 챗봇 평균 비용이 텍스트 대비 1.4배.