GitHub 이슈를 자동 수정하는 에이전트 벤치마크. 가장 권위 있음.
실제 OSS 이슈·패치로 "AI가 진짜 개발자 일을 하는가" 측정. Claude·GPT·Devin 경쟁 지표.