핵심 요약
Google Gemini 3.5 Pro 출시 후 40시간 평가. SWE-bench 80.2%, KMMLU 85.8%(LLM 사상 최고), 2M 컨텍스트, 가격 $4/M input. 한국어·긴 컨텍스트는 Gemini, 복잡 코딩은 Claude 4.9 우세.
1. 벤치마크 — 4모델 비교
| 벤치 | Claude 4.9 Opus | GPT-5.5 | Gemini 3.5 Pro |
|---|---|---|---|
| SWE-bench Verified | 82.1% | 74.1% | 80.2% |
| τ-bench airline | 88% | 82% | 84% |
| KMMLU | 84.2% | 74.1% | 85.8% |
| 2M needle@1.5M | N/A | N/A | 92% |
| Input price | $15/M | $5/M | $4/M |
2. 2M 컨텍스트 — 진가
대형 코드베이스(1.4M 토큰) 전체 분석. Claude는 1M, GPT는 256K. Gemini만 2M에서 needle 92% 정확. 단 처리 시간 2.4배.
3. Code mode — 새 기능
Gemini 3.5에서 code mode 활성 시 Python REPL 자동 실행, 결과로 응답 재생성. AIME 같은 수학 문제에서 -8% → +12% 정확도. data analysis 강점.
4. 실제 사용 — 강점/약점
- ✅ 한국어 자연스러움, KMMLU 1위
- ✅ 2M 컨텍스트 + 비용 효율
- ✅ Multimodal — 이미지·음성·동영상 분석 강함
- ⚠️ Tool calling — Claude 대비 multi-step에서 미세 실수
- ⚠️ Long output — 5K 이상 generation에서 hallucination 증가
5. 라우팅 추천
- 복잡 코딩 — Claude 4.9 Opus
- 한국어 chat·요약 — Gemini 3.5 Pro
- 대형 코드베이스 분석(1M+) — Gemini 3.5 Pro
- cheap classification — Haiku 4.9 or Gemini Flash

댓글 0