핵심 요약
2026년 5월 기준 오픈웨이트 LLM 3강은 Meta Llama 4, Alibaba Qwen 3, DeepSeek V4. GPT-5와 Claude 4.7 대비 평균 6~10% 낮지만 비용은 1/20 수준. 한국어는 Qwen 3, 코딩은 DeepSeek V4, 종합 안정성은 Llama 4가 앞선다. 단, 라이선스(상업적 제약)·VRAM 요구·툴 호출 성숙도가 선택을 가른다.
1. 모델 스펙 정리
| 모델 | 총 파라미터 | 활성 | 컨텍스트 | 라이선스 |
| Llama 4 Behemoth | 405B dense | 405B | 256K | Llama 4 Community |
| Llama 4 Maverick | 400B MoE | 17B | 1M | Llama 4 Community |
| Qwen 3-235B-A22B | 235B MoE | 22B | 128K | Apache 2.0 |
| DeepSeek V4 | 671B MoE | 37B | 164K | MIT + 별도 사용약관 |
2. 벤치마크 실측
| 벤치 | Llama4 Maverick | Qwen3-235B | DeepSeek V4 | GPT-5 (참고) |
| MMLU-Pro | 78.4 | 76.8 | 80.1 | 86.2 |
| HumanEval+ | 89.0 | 87.2 | 92.7 | 94.1 |
| GPQA Diamond | 58.3 | 56.1 | 61.4 | 71.8 |
| KMMLU-Pro | 62.5 | 71.3 | 64.8 | 78.4 |
| SWE-Bench Verified | 42.1 | 38.9 | 49.6 | 62.3 |
3. 한국어 — Qwen이 왜 강한가
Qwen 3는 학습 토큰 18T 중 다국어 비중이 22%, 그중 한국어가 1.4%로 추정된다. 동일 프롬프트로 100개 한국어 카테고리(법률·의학·계약서·구어체) 테스트 시 Qwen이 평균 9점 우위. Llama 4는 영어 번역체가 종종 나오고, DeepSeek는 한자어 비중이 높다.
# vLLM으로 Qwen 3 띄우기
vllm serve Qwen/Qwen3-235B-A22B-Instruct \
--tensor-parallel-size 8 \
--max-model-len 65536 \
--enable-prefix-caching \
--kv-cache-dtype fp8
4. 추론 비용 — H100 8장 기준
| 모델 | 처리량(req/s) | p50 latency | 토큰당 비용(USD/1M) |
| Llama 4 Maverick(MoE) | 34 | 1.8s | $0.42 |
| Qwen 3-235B | 28 | 2.1s | $0.51 |
| DeepSeek V4 | 19 | 2.9s | $0.76 |
| GPT-5 API(참고) | - | 1.2s | $8.00 |
5. 양자화 영향
FP8(KV+가중치)로 가면 VRAM은 절반이지만 KMMLU 점수 1~2점 하락. INT4 AWQ로 가면 H100 2장에서도 Maverick이 돌지만 점수가 4~7점 빠진다. 실서비스 분류·요약은 FP8, 추론·코딩은 BF16 권장.
6. 툴 호출과 함수 콜링
| 모델 | 유효 JSON | 스키마 100% 일치 | 병렬 호출 |
| Llama 4 Maverick | 99% | 94% | 지원 |
| Qwen 3-235B | 97% | 88% | 지원 |
| DeepSeek V4 | 92% | 79% | 제한적 |
7. 라이선스 함정
Llama 4 Community 라이선스는 월간 활성 7억 명 이상 서비스에 별도 협의를 요구한다. Qwen 3는 순수 Apache 2.0으로 가장 자유롭다. DeepSeek V4는 MIT지만 별도 사용약관에서 군사·차별·중국 법 위반 용도를 금지한다. 한국 스타트업·중견기업이면 셋 다 사실상 문제없지만 글로벌 SaaS는 Qwen이 가장 안전.
8. 어떤 상황에 무엇
| 유스케이스 | 1순위 | 이유 |
| 한국어 고객 상담 | Qwen 3 | 한국어 점수·라이선스 |
| 코드 자동완성·리뷰 | DeepSeek V4 | SWE-Bench 49.6 |
| RAG 백엔드 | Llama 4 Maverick | 1M 컨텍스트·MoE 비용 |
| 온프레미스 의료 | Qwen 3 | Apache 2.0·KMMLU |
| 다중 모달 | Llama 4 Maverick | 네이티브 멀티모달 |
참고
- llama.com/llama4
- qwen2.org/qwen3
- deepseek.com/v4
- huggingface.co/spaces/open-llm-leaderboard
댓글 0