본문 바로가기
AI2026년 5월 14일4분 읽기

Sonnet 4.7 코딩 벤치마크 — 사내 코드베이스 100문제 실측

YS
김영삼
조회 682
Sonnet 4.7 코딩 벤치마크 — 사내 코드베이스 100문제 실측

핵심 요약

표준 벤치(SWE-bench·Aider·Terminal-Bench)는 유용하지만 "내 코드"에서 어떤지는 다르다. 사내 모노레포에서 실제 PR·이슈 100개를 골라 모델 3개로 실측. 결과: 가성비는 Sonnet 4.7, 어려운 문제는 Opus 4.7, 코드 외 일반 추론은 GPT-5.5.

1. 평가 셋업

  • 코드 100문제 (실제 merged PR에서 추출, 정답·테스트 포함)
  • 난이도 라벨: easy 30 / medium 50 / hard 20
  • 도메인: 백엔드(40) / 프론트(30) / 인프라(15) / DB(10) / 기타(5)
  • 실행: 각 모델에 동일 프롬프트 + 도구(fs·bash·grep)
  • 채점: 자동 테스트 통과 + 사람 리뷰 점수 (1~5)

2. 결과 — 전체

모델해결률리뷰 점수$/문제P50 소요
Claude Opus 4.778%4.3/5$0.924.8분
Claude Sonnet 4.771%4.0/5$0.243.2분
GPT-5.567%3.9/5$0.413.6분
Gemini 3 Pro63%3.7/5$0.182.9분
Claude Haiku 4.552%3.4/5$0.041.7분

3. 난이도별

난이도Opus 4.7Sonnet 4.7GPT-5.5
Easy (30)97%93%90%
Medium (50)80%72%68%
Hard (20)55%40%40%

Hard 구간에서 Opus가 확실히 우세. 그 외엔 큰 차이 없음.

4. 도메인별 — 흥미로운 차이

도메인1위주된 차이
백엔드 (Node/Python)Opus 4.7오래된 코드 패턴 잘 따라감
프론트 (React)Sonnet 4.7RSC·use·suspense 정확
인프라 (k8s·tf)GPT-5.5YAML 일관성 ↑
DB (SQL·migration)Opus 4.7인덱스·트랜잭션 고려

5. 자주 실패하는 패턴

  • 전역 가정 충돌: 사내 util 함수와 다른 동작을 가정 (Sonnet 빈도 ↑)
  • 오래된 코드 스타일: 사내 컨벤션 안 따름
  • 큰 컨텍스트의 중간: 1M 컨텍스트라도 중앙부의 코드는 회상률 ↓
  • 비결정적 테스트: 시간 의존 테스트에서 가짜 통과·실패

6. Self-improvement — 같은 모델 재시도

실패 케이스에서 "테스트 결과" 보여주고 재시도 시키면 추가 해결률.

모델1차2차 추가3차 추가
Opus 4.778%+9%p (87)+3%p (90)
Sonnet 4.771%+11%p (82)+4%p (86)

피드백 루프가 단발 능력보다 큰 효과.

7. 라우팅 전략 — 비용 최적화

난이도 추정 모델(Haiku) → 분배:

전략해결률$/문제
Opus 전부78%$0.92
Sonnet 전부71%$0.24
Haiku 라우팅74%$0.32

해결률 -4%p에 비용 65% 절감. 도구 사용 빈도 높은 자동화에 적합.

8. 도구 사용 — 어떻게 다른가

  • Claude: bash·fs 일관되게 사용. 도구 호출 평균 12회/문제
  • GPT-5.5: 한 번에 더 큰 작업 → 도구 호출 8회. 단, 잘못 추측한 후 수정 비용 큼
  • Gemini 3: 도구 7회, 그러나 grep 활용도 낮음 → 큰 컨텍스트 의존

9. 한국어 자연어 + 코드 혼합

주석·문서·커밋 메시지 한국어 포함 케이스. Claude·GPT 둘 다 우수. Gemini는 한국어 코드 식별자 처리에서 1~2건 실패.

10. 결론 — 권장 선택

용도모델
일상 코딩 (대다수)Sonnet 4.7
어려운 디버깅·아키텍처Opus 4.7
대규모 자동화 (PR 봇·자동 수정)Sonnet + Haiku 라우팅
일반 추론 + 코드 일부GPT-5.5
예산 빠듯 + 단순 작업Haiku 4.5

11. 측정 시 주의

  • 표준 벤치 점수가 자기 코드에서 같은 결과 보장 X
  • 도구 셋팅·프롬프트만 바꿔도 ±10%p 흔함
  • 비결정성 — 같은 입력 5회 평균 권장

참고

  • swebench.com
  • aider.chat/leaderboard

댓글 0

아직 댓글이 없습니다.
Ctrl+Enter로 등록