핵심 요약
표준 벤치(SWE-bench·Aider·Terminal-Bench)는 유용하지만 "내 코드"에서 어떤지는 다르다. 사내 모노레포에서 실제 PR·이슈 100개를 골라 모델 3개로 실측. 결과: 가성비는 Sonnet 4.7, 어려운 문제는 Opus 4.7, 코드 외 일반 추론은 GPT-5.5.
1. 평가 셋업
- 코드 100문제 (실제 merged PR에서 추출, 정답·테스트 포함)
- 난이도 라벨: easy 30 / medium 50 / hard 20
- 도메인: 백엔드(40) / 프론트(30) / 인프라(15) / DB(10) / 기타(5)
- 실행: 각 모델에 동일 프롬프트 + 도구(fs·bash·grep)
- 채점: 자동 테스트 통과 + 사람 리뷰 점수 (1~5)
2. 결과 — 전체
| 모델 | 해결률 | 리뷰 점수 | $/문제 | P50 소요 |
|---|---|---|---|---|
| Claude Opus 4.7 | 78% | 4.3/5 | $0.92 | 4.8분 |
| Claude Sonnet 4.7 | 71% | 4.0/5 | $0.24 | 3.2분 |
| GPT-5.5 | 67% | 3.9/5 | $0.41 | 3.6분 |
| Gemini 3 Pro | 63% | 3.7/5 | $0.18 | 2.9분 |
| Claude Haiku 4.5 | 52% | 3.4/5 | $0.04 | 1.7분 |
3. 난이도별
| 난이도 | Opus 4.7 | Sonnet 4.7 | GPT-5.5 |
|---|---|---|---|
| Easy (30) | 97% | 93% | 90% |
| Medium (50) | 80% | 72% | 68% |
| Hard (20) | 55% | 40% | 40% |
Hard 구간에서 Opus가 확실히 우세. 그 외엔 큰 차이 없음.
4. 도메인별 — 흥미로운 차이
| 도메인 | 1위 | 주된 차이 |
|---|---|---|
| 백엔드 (Node/Python) | Opus 4.7 | 오래된 코드 패턴 잘 따라감 |
| 프론트 (React) | Sonnet 4.7 | RSC·use·suspense 정확 |
| 인프라 (k8s·tf) | GPT-5.5 | YAML 일관성 ↑ |
| DB (SQL·migration) | Opus 4.7 | 인덱스·트랜잭션 고려 |
5. 자주 실패하는 패턴
- 전역 가정 충돌: 사내 util 함수와 다른 동작을 가정 (Sonnet 빈도 ↑)
- 오래된 코드 스타일: 사내 컨벤션 안 따름
- 큰 컨텍스트의 중간: 1M 컨텍스트라도 중앙부의 코드는 회상률 ↓
- 비결정적 테스트: 시간 의존 테스트에서 가짜 통과·실패
6. Self-improvement — 같은 모델 재시도
실패 케이스에서 "테스트 결과" 보여주고 재시도 시키면 추가 해결률.
| 모델 | 1차 | 2차 추가 | 3차 추가 |
|---|---|---|---|
| Opus 4.7 | 78% | +9%p (87) | +3%p (90) |
| Sonnet 4.7 | 71% | +11%p (82) | +4%p (86) |
피드백 루프가 단발 능력보다 큰 효과.
7. 라우팅 전략 — 비용 최적화
난이도 추정 모델(Haiku) → 분배:
| 전략 | 해결률 | $/문제 |
|---|---|---|
| Opus 전부 | 78% | $0.92 |
| Sonnet 전부 | 71% | $0.24 |
| Haiku 라우팅 | 74% | $0.32 |
해결률 -4%p에 비용 65% 절감. 도구 사용 빈도 높은 자동화에 적합.
8. 도구 사용 — 어떻게 다른가
- Claude: bash·fs 일관되게 사용. 도구 호출 평균 12회/문제
- GPT-5.5: 한 번에 더 큰 작업 → 도구 호출 8회. 단, 잘못 추측한 후 수정 비용 큼
- Gemini 3: 도구 7회, 그러나 grep 활용도 낮음 → 큰 컨텍스트 의존
9. 한국어 자연어 + 코드 혼합
주석·문서·커밋 메시지 한국어 포함 케이스. Claude·GPT 둘 다 우수. Gemini는 한국어 코드 식별자 처리에서 1~2건 실패.
10. 결론 — 권장 선택
| 용도 | 모델 |
|---|---|
| 일상 코딩 (대다수) | Sonnet 4.7 |
| 어려운 디버깅·아키텍처 | Opus 4.7 |
| 대규모 자동화 (PR 봇·자동 수정) | Sonnet + Haiku 라우팅 |
| 일반 추론 + 코드 일부 | GPT-5.5 |
| 예산 빠듯 + 단순 작업 | Haiku 4.5 |
11. 측정 시 주의
- 표준 벤치 점수가 자기 코드에서 같은 결과 보장 X
- 도구 셋팅·프롬프트만 바꿔도 ±10%p 흔함
- 비결정성 — 같은 입력 5회 평균 권장
참고
- swebench.com
- aider.chat/leaderboard

댓글 0