Google Gemini 3.5 Pro — 한국어 + 코딩 평가 40시간 | 기술노트

핵심 요약

Google Gemini 3.5 Pro 출시 후 40시간 평가. SWE-bench 80.2%, KMMLU 85.8%(LLM 사상 최고), 2M 컨텍스트, 가격 $4/M input. 한국어·긴 컨텍스트는 Gemini, 복잡 코딩은 Claude 4.9 우세.

벤치	Claude 4.9 Opus	GPT-5.5	Gemini 3.5 Pro
SWE-bench Verified	82.1%	74.1%	80.2%
τ-bench airline	88%	82%	84%
KMMLU	84.2%	74.1%	85.8%
2M needle@1.5M	N/A	N/A	92%
Input price	$15/M	$5/M	$4/M

대형 코드베이스(1.4M 토큰) 전체 분석. Claude는 1M, GPT는 256K. Gemini만 2M에서 needle 92% 정확. 단 처리 시간 2.4배.

Gemini 3.5에서 code mode 활성 시 Python REPL 자동 실행, 결과로 응답 재생성. AIME 같은 수학 문제에서 -8% → +12% 정확도. data analysis 강점.