핵심 요약
GPT-5.5(2026-05-05) 출시로 코딩 LLM 3강 구도 재편. 4월 한 달간 동일 워크로드를 3개 모델에 돌린 결과 — 모델별 강점이 분명히 갈린다.
1. 공식 벤치마크
| 벤치마크 | GPT-5.5 | Claude 4.7 Opus | Gemini 3 Pro |
|---|---|---|---|
| SWE-bench Verified | 80.6 | 78.1 | 72.4 |
| Terminal-Bench 2.0 | 71.2 | 69.4 | 61.8 |
| HumanEval+ | 96.8 | 97.2 | 94.6 |
| MMLU-Pro | 87.1 | 83.9 | 85.4 |
| 한국어 KMMLU | 78.4 | 75.8 | 76.9 |
2. 가격 (2026-05 기준)
| 모델 | 입력 $/M | 출력 $/M |
|---|---|---|
| GPT-5.5 | 1.50 | 6.00 |
| Claude 4.7 Sonnet | 3.00 | 15.00 |
| Claude 4.7 Opus | 5.00 | 25.00 |
| Gemini 3 Pro | 2.00 | 8.00 |
| Gemini 3 Flash | 0.15 | 0.60 |
3. 실전 태스크 — 케이스 비교
① 버그 수정 (Express 라우트 race condition)
| 모델 | 1차 시도 | 설명 품질 | 최종 통과 |
|---|---|---|---|
| GPT-5.5 | O | 락 메커니즘 명확 | O |
| Claude 4.7 Opus | O | edge case 추가 지적 | O |
| Gemini 3 Pro | X (1차) | 일부 누락 | O (2차) |
② 50파일 리팩토링 (Express → Hono)
Claude 4.7 Opus 압승. 1M 컨텍스트로 전체 코드를 한 번에 보면서 일관된 패턴 적용. GPT-5.5도 1M 지원하지만 50파일 일관성에서 5건 누락. Gemini 3 Pro는 컨텍스트 한계로 분할 작업 필요.
③ 알고리즘 — Dynamic Programming
GPT-5.5 우세. 수학적 추론 깊이가 핵심인 문제는 OpenAI가 아직 강함.
④ 한국어 주석·변수명 코드
| 모델 | 한국어 처리 |
|---|---|
| GPT-5.5 | OK |
| Claude 4.7 Opus | OK + 한국 비즈니스 도메인 용어 강함 |
| Gemini 3 Pro | OK |
| EXAONE 5.0 | 한국어 특화 — 별도 비교 |
⑤ 도구 사용 (Tool Use)
Claude 4.7 우세. 도구 호출 안정성, 멀티턴 일관성이 차이. 50개 도구 호출 중 한 번도 hallucinated tool 호출 없음. GPT-5.5는 50회 중 2회, Gemini 3는 6회 발생.
⑥ 디버깅 with Logs
비등. 큰 차이 없음.
4. 1M 컨텍스트 활용
| 모델 | 풀 1M 시 P50 응답 | P99 |
|---|---|---|
| GPT-5.5 | 22초 | 58초 |
| Claude 4.7 Opus 1M | 30초 | 72초 |
| Gemini 3 Pro | 1M 미지원 (512K) | — |
5. 비용 시뮬레이션 — 풀스택 개발자 1명
월 평균 작업: 입력 50M 토큰 (코드+컨텍스트), 출력 5M 토큰
| 모델 | 월 비용 |
|---|---|
| GPT-5.5 | $105 |
| Claude 4.7 Sonnet | $225 |
| Claude 4.7 Opus | $375 |
| Gemini 3 Pro | $140 |
실제로는 캐시 적용 시 60~90% 할인이 들어가므로 위는 상한.
6. IDE 통합 추천
| 도구 | 추천 모델 |
|---|---|
| Claude Code (CLI) | Claude 4.7 Opus 또는 Sonnet |
| Cursor | 혼용 — 기본은 Claude, 알고리즘은 GPT-5.5 |
| GitHub Copilot | GPT-5.5 (기본) + Claude 옵션 |
| Codeium / Continue | 모델 자유 선택 |
7. 실전 권장
- 대형 리팩토링·코드 리뷰: Claude 4.7 Opus 1M
- 알고리즘·복잡 추론: GPT-5.5
- 일상 페어 프로그래밍: Claude 4.7 Sonnet (가격 vs 품질)
- 대량 자동화 (배치): Gemini 3 Flash 또는 Claude Haiku 4.5
- 한국어 비즈니스 도메인: Claude 4.7 또는 EXAONE 5.0
8. 워크플로 예시 — 다중 모델 라우팅
function pickModel(task: Task) {
if (task.type === 'algorithm' || task.requiresMath) return 'gpt-5.5'
if (task.fileCount > 30 || task.contextSize > 200_000) return 'claude-4-7-opus'
if (task.batch || task.budget === 'low') return 'claude-haiku-4-5'
return 'claude-4-7-sonnet'
}
9. 1년 전 대비 변화
- 코딩 SWE 점수: 평균 +15p 상승 (3개 모델 모두)
- 가격: 평균 50% 인하
- 컨텍스트: 200K → 1M (5배)
- 도구 사용 안정성: hallucination ~70% 감소
참고
- SWE-bench Verified leaderboard
- Aider polyglot leaderboard (모델 + 에디터 통합 점수)

댓글 0