오픈소스 LLM 리더보드 2026-05 — Llama 4·Qwen 3·DeepSeek V4 실측 | 기술노트

핵심 요약

2026년 5월 기준 오픈웨이트 LLM 3강은 Meta Llama 4, Alibaba Qwen 3, DeepSeek V4. GPT-5와 Claude 4.7 대비 평균 6~10% 낮지만 비용은 1/20 수준. 한국어는 Qwen 3, 코딩은 DeepSeek V4, 종합 안정성은 Llama 4가 앞선다. 단, 라이선스(상업적 제약)·VRAM 요구·툴 호출 성숙도가 선택을 가른다.

1. 모델 스펙 정리

모델	총 파라미터	활성	컨텍스트	라이선스
Llama 4 Behemoth	405B dense	405B	256K	Llama 4 Community
Llama 4 Maverick	400B MoE	17B	1M	Llama 4 Community
Qwen 3-235B-A22B	235B MoE	22B	128K	Apache 2.0
DeepSeek V4	671B MoE	37B	164K	MIT + 별도 사용약관

2. 벤치마크 실측

벤치	Llama4 Maverick	Qwen3-235B	DeepSeek V4	GPT-5 (참고)
MMLU-Pro	78.4	76.8	80.1	86.2
HumanEval+	89.0	87.2	92.7	94.1
GPQA Diamond	58.3	56.1	61.4	71.8
KMMLU-Pro	62.5	71.3	64.8	78.4
SWE-Bench Verified	42.1	38.9	49.6	62.3

3. 한국어 — Qwen이 왜 강한가

Qwen 3는 학습 토큰 18T 중 다국어 비중이 22%, 그중 한국어가 1.4%로 추정된다. 동일 프롬프트로 100개 한국어 카테고리(법률·의학·계약서·구어체) 테스트 시 Qwen이 평균 9점 우위. Llama 4는 영어 번역체가 종종 나오고, DeepSeek는 한자어 비중이 높다.

# vLLM으로 Qwen 3 띄우기
vllm serve Qwen/Qwen3-235B-A22B-Instruct \
  --tensor-parallel-size 8 \
  --max-model-len 65536 \
  --enable-prefix-caching \
  --kv-cache-dtype fp8

4. 추론 비용 — H100 8장 기준

모델	처리량(req/s)	p50 latency	토큰당 비용(USD/1M)
Llama 4 Maverick(MoE)	34	1.8s	$0.42
Qwen 3-235B	28	2.1s	$0.51
DeepSeek V4	19	2.9s	$0.76
GPT-5 API(참고)	-	1.2s	$8.00

5. 양자화 영향

FP8(KV+가중치)로 가면 VRAM은 절반이지만 KMMLU 점수 1~2점 하락. INT4 AWQ로 가면 H100 2장에서도 Maverick이 돌지만 점수가 4~7점 빠진다. 실서비스 분류·요약은 FP8, 추론·코딩은 BF16 권장.

6. 툴 호출과 함수 콜링

모델	유효 JSON	스키마 100% 일치	병렬 호출
Llama 4 Maverick	99%	94%	지원
Qwen 3-235B	97%	88%	지원
DeepSeek V4	92%	79%	제한적

7. 라이선스 함정

Llama 4 Community 라이선스는 월간 활성 7억 명 이상 서비스에 별도 협의를 요구한다. Qwen 3는 순수 Apache 2.0으로 가장 자유롭다. DeepSeek V4는 MIT지만 별도 사용약관에서 군사·차별·중국 법 위반 용도를 금지한다. 한국 스타트업·중견기업이면 셋 다 사실상 문제없지만 글로벌 SaaS는 Qwen이 가장 안전.

8. 어떤 상황에 무엇

유스케이스	1순위	이유
한국어 고객 상담	Qwen 3	한국어 점수·라이선스
코드 자동완성·리뷰	DeepSeek V4	SWE-Bench 49.6
RAG 백엔드	Llama 4 Maverick	1M 컨텍스트·MoE 비용
온프레미스 의료	Qwen 3	Apache 2.0·KMMLU
다중 모달	Llama 4 Maverick	네이티브 멀티모달

참고

llama.com/llama4
qwen2.org/qwen3
deepseek.com/v4
huggingface.co/spaces/open-llm-leaderboard