SWE-bench Pro 4월 리더보드 — Claude Mythos 77.8%, Opus 4.7 64.3%, GPT-5.5 58.6% | 뉴스

핵심 요약

Scale AI가 운영하는 코딩 에이전트 벤치마크 SWE-bench Pro의 4월 리더보드가 4월 25일 갱신됐다. 신규 모델 진입과 점수 변동이 컸다.

Mythos Preview (Anthropic): 77.8% — 1위
Claude Opus 4.7 Adaptive: 64.3% — 2위
GPT-5.5 Pro (OpenAI): 66.4% — 신규
GPT-5.5: 58.6%
Gemini 3.1 Pro Adaptive: 52.3%
DeepSeek-Coder V3: 45.2% (오픈소스 1위)

SWE-bench Pro란

SWE-bench는 GitHub 실제 이슈에서 모델이 패치를 만드는 능력을 측정하는 벤치마크다. Verified는 단일 파일 수정이 많은 500개 태스크, Pro는 다중 파일·장기 추론이 필요한 731개 태스크다. Pro는 출시 1년 만에 사실상 표준이 됐다.

왜 Pro가 더 어려운가

평균 변경 파일 수: Verified 1.4 vs Pro 4.7
수정 라인 수: Verified 22 vs Pro 108
관련 PR 종속성: Verified 0.3 vs Pro 1.8
해결 시간 (인간 평균): Verified 1.1시간 vs Pro 6.3시간

전체 리더보드 (Top 12)

순위	모델	SWE-bench Verified	SWE-bench Pro
1	Claude Mythos Preview	93.9%	77.8%
2	GPT-5.5 Pro	89.1%	66.4%
3	Claude Opus 4.7 Adaptive	87.6%	64.3%
4	Claude Opus 4.7	87.4%	62.1%
5	GPT-5.5	87.4%	58.6%
6	GPT-5.4	83.2%	54.7%
7	Claude Sonnet 4.6	82.0%	52.9%
8	Gemini 3.1 Pro Adaptive	80.7%	52.3%
9	Gemini 3.1 Pro	78.5%	49.8%
10	DeepSeek-Coder V3	76.1%	45.2%
11	Llama 4 Code 70B	71.4%	41.8%
12	Qwen3-Coder 32B	69.0%	39.4%

주요 변화 5가지

1) 격차의 이중 곡선

Verified에서 1~5위가 6%p 안에 모여 있지만, Pro에서는 1~5위 격차가 19%p로 벌어진다. 즉, 어려운 태스크일수록 모델 간 차이가 명확해진다는 뜻이다.

2) "Adaptive 모드"의 등장

Anthropic Opus 4.7 Adaptive와 Gemini 3.1 Pro Adaptive는 모델 외부에 별도 추론 컨트롤러(스캐폴드)를 붙인 변종이다. Pro 점수에서 비-Adaptive 대비 평균 2~3%p 우위를 보였다.

3) 오픈소스의 "프런티어 - 35%p 격차"

오픈소스 1위 DeepSeek-Coder V3와 1위 Mythos 격차가 32.6%p. 1년 전(2025년 4월) 같은 격차가 약 18%p였다는 점에서 오픈소스가 "추격"보다 "추격당함" 상태로 진입했다는 분석.

4) GPT-5.5 Pro의 코딩 도약

OpenAI는 그간 코딩 영역에서 Anthropic에 밀린다는 평을 들어왔다. GPT-5.5 Pro의 Pro 66.4%는 Opus 4.7 Adaptive(64.3%)를 처음 넘어선 OpenAI 모델이다.

5) Mythos는 별도 리그

Mythos Preview의 77.8%는 차순위 GPT-5.5 Pro와 11%p 격차다. SWE-bench 운영진은 "측정 신뢰도가 일정 수준 이상이면 결국 100% 부근에서 수렴할 것이고, 그 시점이 멀지 않다"고 평했다.

벤치마크 사용법 — 실무 관점

대형 리팩토링·다파일 변경: SWE-bench Pro 점수가 절대적으로 중요
버그 픽스·소규모 수정: Verified 점수면 충분
오픈소스 메인테이너: 비-Adaptive 점수가 실제 사용 환경에 더 가까움
예산 제약: GPT-5.5 일반판 ($5/$30)이 가장 좋은 비용/성능 비

한계와 비판

4월 25일 Berkeley 논문 — 자동화 스캐닝 에이전트가 SWE-bench를 포함한 8개 벤치마크에서 "거의 만점" 가능 (별도 기사)
Pro 731 태스크가 GitHub 트렌딩 저장소에 편중 — 사내 모놀리스 프로젝트 대표성 부족
"Adaptive" 변종은 동일 모델인지 별도 모델인지 명확한 정의 부재

자주 묻는 질문

실무에서 어떤 모델을 선택해야 하나?

일반 워크로드는 GPT-5.5(가격), 고난도 리팩토링은 Opus 4.7 Adaptive(품질), 보안 분석은 Mythos(접근 가능 시).

Mythos는 왜 SWE-bench에서도 압도적인가?

Mythos는 사이버 보안 특화이지만, 그 능력의 핵심은 "코드베이스를 깊이 이해하는 능력". SWE-bench Pro의 다파일 추론과 일치한다.

다음 갱신은 언제?

Scale AI는 5월 23일 차차 차기 리더보드 갱신을 예고했다.