본문 바로가기
AI2026년 6월 4일2분 읽기

Google Gemini 3.5 Pro — 한국어 + 코딩 평가 40시간

YS
김영삼
조회 316
Google Gemini 3.5 Pro — 한국어 + 코딩 평가 40시간

핵심 요약

Google Gemini 3.5 Pro 출시 후 40시간 평가. SWE-bench 80.2%, KMMLU 85.8%(LLM 사상 최고), 2M 컨텍스트, 가격 $4/M input. 한국어·긴 컨텍스트는 Gemini, 복잡 코딩은 Claude 4.9 우세.

1. 벤치마크 — 4모델 비교

벤치Claude 4.9 OpusGPT-5.5Gemini 3.5 Pro
SWE-bench Verified82.1%74.1%80.2%
τ-bench airline88%82%84%
KMMLU84.2%74.1%85.8%
2M needle@1.5MN/AN/A92%
Input price$15/M$5/M$4/M

2. 2M 컨텍스트 — 진가

대형 코드베이스(1.4M 토큰) 전체 분석. Claude는 1M, GPT는 256K. Gemini만 2M에서 needle 92% 정확. 단 처리 시간 2.4배.

3. Code mode — 새 기능

Gemini 3.5에서 code mode 활성 시 Python REPL 자동 실행, 결과로 응답 재생성. AIME 같은 수학 문제에서 -8% → +12% 정확도. data analysis 강점.

4. 실제 사용 — 강점/약점

  • ✅ 한국어 자연스러움, KMMLU 1위
  • ✅ 2M 컨텍스트 + 비용 효율
  • ✅ Multimodal — 이미지·음성·동영상 분석 강함
  • ⚠️ Tool calling — Claude 대비 multi-step에서 미세 실수
  • ⚠️ Long output — 5K 이상 generation에서 hallucination 증가

5. 라우팅 추천

  • 복잡 코딩 — Claude 4.9 Opus
  • 한국어 chat·요약 — Gemini 3.5 Pro
  • 대형 코드베이스 분석(1M+) — Gemini 3.5 Pro
  • cheap classification — Haiku 4.9 or Gemini Flash

댓글 0

아직 댓글이 없습니다.
Ctrl+Enter로 등록