본문 바로가기
AI2026년 4월 17일2분 읽기

SWE-bench Verified 4월 업데이트 — Claude가 GPT-5.4를 공식 추월 (80.8% vs ~80%)

YS
김영삼
조회 10

핵심 요약

2026년 4월 SWE-bench Verified 업데이트에서 Claude Opus 4.6이 80.8%로 GPT-5.4의 약 80%를 공식 추월했다. 업계에서 가장 권위 있는 실제 소프트웨어 엔지니어링 벤치마크에서의 결과다.

  • Claude Opus 4.6: 80.8%
  • GPT-5.4: 약 80%
  • Opus 4.7은 이 격차를 더 벌리는 방향
  • Claude Mythos Preview는 제한 공개 모델로, 이들을 전부 상회

SWE-bench Verified가 중요한 이유

GSM8K나 MMLU 같은 지식 벤치마크가 아니라 실제 GitHub 이슈와 패치 재현을 측정한다. "AI가 진짜 개발자 일을 할 수 있는가"에 가장 가까운 지표다.

왜 "Verified"인가

원본 SWE-bench의 문제 일부를 수작업으로 검증한 서브셋이다. 재현성과 정답의 명확성이 보장된다.

점수 차이의 실무 의미

80% vs 80.8% = 약 1%p 차이지만, 두 모델의 실패 케이스가 서로 겹치지 않는다는 점이 핵심이다.

  • 단일 모델 기반 에이전트는 실패율 20% 내외
  • 두 모델 앙상블 시 실패율이 더 크게 감소

벤치마크의 한계

  • 정적 문제 풀만 측정 → 실제 프로덕션 장기 태스크와는 다름
  • 영어권 리포 위주 → 한국어 주석·문서 환경에서는 성능 격차 존재
  • 에이전트 프레임워크 영향이 모델 차이보다 큰 경우도 많음

어떤 모델을 선택할까

  • 복잡 리팩터링·장기 컨텍스트 → Claude Opus 4.7
  • 범용 대화·에이전트 → GPT-5.4
  • 사이버보안 특화 → Claude Mythos (검증 시)
  • 비용 최적 → Haiku 4.5 / 소형 모델

자주 묻는 질문

점수 1%p 차이가 실무에서 체감되나?

난이도 상위 문제에서 격차가 더 벌어지기 때문에, 복잡 태스크 위주라면 체감 차이가 난다.

벤치마크만 보고 선택해도 되나?

안 된다. 비용·지연시간·도구 호환성을 함께 평가해야 한다.

댓글 0

아직 댓글이 없습니다.
Ctrl+Enter로 등록