핵심 요약
2026년 4월 SWE-bench Verified 업데이트에서 Claude Opus 4.6이 80.8%로 GPT-5.4의 약 80%를 공식 추월했다. 업계에서 가장 권위 있는 실제 소프트웨어 엔지니어링 벤치마크에서의 결과다.
- Claude Opus 4.6: 80.8%
- GPT-5.4: 약 80%
- Opus 4.7은 이 격차를 더 벌리는 방향
- Claude Mythos Preview는 제한 공개 모델로, 이들을 전부 상회
SWE-bench Verified가 중요한 이유
GSM8K나 MMLU 같은 지식 벤치마크가 아니라 실제 GitHub 이슈와 패치 재현을 측정한다. "AI가 진짜 개발자 일을 할 수 있는가"에 가장 가까운 지표다.
왜 "Verified"인가
원본 SWE-bench의 문제 일부를 수작업으로 검증한 서브셋이다. 재현성과 정답의 명확성이 보장된다.
점수 차이의 실무 의미
80% vs 80.8% = 약 1%p 차이지만, 두 모델의 실패 케이스가 서로 겹치지 않는다는 점이 핵심이다.
- 단일 모델 기반 에이전트는 실패율 20% 내외
- 두 모델 앙상블 시 실패율이 더 크게 감소
벤치마크의 한계
- 정적 문제 풀만 측정 → 실제 프로덕션 장기 태스크와는 다름
- 영어권 리포 위주 → 한국어 주석·문서 환경에서는 성능 격차 존재
- 에이전트 프레임워크 영향이 모델 차이보다 큰 경우도 많음
어떤 모델을 선택할까
- 복잡 리팩터링·장기 컨텍스트 → Claude Opus 4.7
- 범용 대화·에이전트 → GPT-5.4
- 사이버보안 특화 → Claude Mythos (검증 시)
- 비용 최적 → Haiku 4.5 / 소형 모델
자주 묻는 질문
점수 1%p 차이가 실무에서 체감되나?
난이도 상위 문제에서 격차가 더 벌어지기 때문에, 복잡 태스크 위주라면 체감 차이가 난다.
벤치마크만 보고 선택해도 되나?
안 된다. 비용·지연시간·도구 호환성을 함께 평가해야 한다.
댓글 0