Sonnet 4.7 코딩 벤치마크 — 사내 코드베이스 100문제 실측 | 기술노트

핵심 요약

표준 벤치(SWE-bench·Aider·Terminal-Bench)는 유용하지만 "내 코드"에서 어떤지는 다르다. 사내 모노레포에서 실제 PR·이슈 100개를 골라 모델 3개로 실측. 결과: 가성비는 Sonnet 4.7, 어려운 문제는 Opus 4.7, 코드 외 일반 추론은 GPT-5.5.

1. 평가 셋업

코드 100문제 (실제 merged PR에서 추출, 정답·테스트 포함)
난이도 라벨: easy 30 / medium 50 / hard 20
도메인: 백엔드(40) / 프론트(30) / 인프라(15) / DB(10) / 기타(5)
실행: 각 모델에 동일 프롬프트 + 도구(fs·bash·grep)
채점: 자동 테스트 통과 + 사람 리뷰 점수 (1~5)

2. 결과 — 전체

모델	해결률	리뷰 점수	$/문제	P50 소요
Claude Opus 4.7	78%	4.3/5	$0.92	4.8분
Claude Sonnet 4.7	71%	4.0/5	$0.24	3.2분
GPT-5.5	67%	3.9/5	$0.41	3.6분
Gemini 3 Pro	63%	3.7/5	$0.18	2.9분
Claude Haiku 4.5	52%	3.4/5	$0.04	1.7분

3. 난이도별

난이도	Opus 4.7	Sonnet 4.7	GPT-5.5
Easy (30)	97%	93%	90%
Medium (50)	80%	72%	68%
Hard (20)	55%	40%	40%

Hard 구간에서 Opus가 확실히 우세. 그 외엔 큰 차이 없음.

4. 도메인별 — 흥미로운 차이

도메인	1위	주된 차이
백엔드 (Node/Python)	Opus 4.7	오래된 코드 패턴 잘 따라감
프론트 (React)	Sonnet 4.7	RSC·use·suspense 정확
인프라 (k8s·tf)	GPT-5.5	YAML 일관성 ↑
DB (SQL·migration)	Opus 4.7	인덱스·트랜잭션 고려

5. 자주 실패하는 패턴

전역 가정 충돌: 사내 util 함수와 다른 동작을 가정 (Sonnet 빈도 ↑)
오래된 코드 스타일: 사내 컨벤션 안 따름
큰 컨텍스트의 중간: 1M 컨텍스트라도 중앙부의 코드는 회상률 ↓
비결정적 테스트: 시간 의존 테스트에서 가짜 통과·실패

6. Self-improvement — 같은 모델 재시도

실패 케이스에서 "테스트 결과" 보여주고 재시도 시키면 추가 해결률.

모델	1차	2차 추가	3차 추가
Opus 4.7	78%	+9%p (87)	+3%p (90)
Sonnet 4.7	71%	+11%p (82)	+4%p (86)

피드백 루프가 단발 능력보다 큰 효과.

7. 라우팅 전략 — 비용 최적화

난이도 추정 모델(Haiku) → 분배:

전략	해결률	$/문제
Opus 전부	78%	$0.92
Sonnet 전부	71%	$0.24
Haiku 라우팅	74%	$0.32

해결률 -4%p에 비용 65% 절감. 도구 사용 빈도 높은 자동화에 적합.

8. 도구 사용 — 어떻게 다른가

Claude: bash·fs 일관되게 사용. 도구 호출 평균 12회/문제
GPT-5.5: 한 번에 더 큰 작업 → 도구 호출 8회. 단, 잘못 추측한 후 수정 비용 큼
Gemini 3: 도구 7회, 그러나 grep 활용도 낮음 → 큰 컨텍스트 의존

9. 한국어 자연어 + 코드 혼합

주석·문서·커밋 메시지 한국어 포함 케이스. Claude·GPT 둘 다 우수. Gemini는 한국어 코드 식별자 처리에서 1~2건 실패.

10. 결론 — 권장 선택

용도	모델
일상 코딩 (대다수)	Sonnet 4.7
어려운 디버깅·아키텍처	Opus 4.7
대규모 자동화 (PR 봇·자동 수정)	Sonnet + Haiku 라우팅
일반 추론 + 코드 일부	GPT-5.5
예산 빠듯 + 단순 작업	Haiku 4.5

11. 측정 시 주의

표준 벤치 점수가 자기 코드에서 같은 결과 보장 X
도구 셋팅·프롬프트만 바꿔도 ±10%p 흔함
비결정성 — 같은 입력 5회 평균 권장

참고

swebench.com
aider.chat/leaderboard