본문 바로가기

AI2026년 4월 17일2분 읽기

SWE-bench Verified 4월 업데이트 — Claude가 GPT-5.4를 공식 추월 (80.8% vs ~80%)

YS

김영삼2026년 4월 17일

조회 108

SWE-bench Verified 4월 업데이트 — Claude가 GPT-5.4를 공식 추월 (80.8% vs ~80%)

핵심 요약

2026년 4월 SWE-bench Verified 업데이트에서 Claude Opus 4.6이 80.8%로 GPT-5.4의 약 80%를 공식 추월했다. 업계에서 가장 권위 있는 실제 소프트웨어 엔지니어링 벤치마크에서의 결과다.

Claude Opus 4.6: 80.8%
GPT-5.4: 약 80%
Opus 4.7은 이 격차를 더 벌리는 방향
Claude Mythos Preview는 제한 공개 모델로, 이들을 전부 상회

SWE-bench Verified가 중요한 이유

GSM8K나 MMLU 같은 지식 벤치마크가 아니라 실제 GitHub 이슈와 패치 재현을 측정한다. "AI가 진짜 개발자 일을 할 수 있는가"에 가장 가까운 지표다.

왜 "Verified"인가

원본 SWE-bench의 문제 일부를 수작업으로 검증한 서브셋이다. 재현성과 정답의 명확성이 보장된다.

점수 차이의 실무 의미

80% vs 80.8% = 약 1%p 차이지만, 두 모델의 실패 케이스가 서로 겹치지 않는다는 점이 핵심이다.

단일 모델 기반 에이전트는 실패율 20% 내외
두 모델 앙상블 시 실패율이 더 크게 감소

벤치마크의 한계

정적 문제 풀만 측정 → 실제 프로덕션 장기 태스크와는 다름
영어권 리포 위주 → 한국어 주석·문서 환경에서는 성능 격차 존재
에이전트 프레임워크 영향이 모델 차이보다 큰 경우도 많음

어떤 모델을 선택할까

복잡 리팩터링·장기 컨텍스트 → Claude Opus 4.7
범용 대화·에이전트 → GPT-5.4
사이버보안 특화 → Claude Mythos (검증 시)
비용 최적 → Haiku 4.5 / 소형 모델

자주 묻는 질문

점수 1%p 차이가 실무에서 체감되나?

난이도 상위 문제에서 격차가 더 벌어지기 때문에, 복잡 태스크 위주라면 체감 차이가 난다.

벤치마크만 보고 선택해도 되나?

안 된다. 비용·지연시간·도구 호환성을 함께 평가해야 한다.

SWEbench ClaudeOpus GPT5 LLM벤치마크 AI코딩

Biome vs ESLint/Prettier — Rust 툴체인이 JS 생태계를 100배 빠르게 바꾼다

2026년 오픈소스 멀티에이전트 3파전 — Google ADK, Meta Llama 4 스택, smolagents

댓글 0

아직 댓글이 없습니다.

Ctrl+Enter로 등록