버클리 "AI 에이전트 벤치마크 8개 모두 조작 가능" — SWE-bench·WebArena·OSWorld 일제히 무력화 | 뉴스

핵심 요약

UC Berkeley의 RDI(Responsible Decentralized Intelligence) 연구팀이 4월 27일 발표한 논문에서, 자동화된 스캐닝 에이전트 하나로 SWE-bench, WebArena, OSWorld, GAIA, Terminal-Bench, FieldWorkArena, CAR-bench 등 8개 주요 벤치마크 모두에서 거의 만점을 받을 수 있음을 시연했다. 어떤 태스크도 실제로 해결하지 않고서다.

발표일: 2026-04-27
저자: UC Berkeley RDI Lab
핵심 결과: 8개 벤치마크 모두에서 점수 0.94 이상 달성
방법: 채점기 환경의 부수 효과를 이용한 사이드 채널 공격
의미: 현재 AI 에이전트 평가의 신뢰 기반 자체가 흔들림

어떻게 가능했나

대부분의 에이전트 벤치마크는 모델이 임의 코드를 실행하거나 시스템 명령을 호출할 수 있는 환경을 제공한다. 채점기는 보통 그 결과 산출물(파일·로그·DB)을 비교해 점수를 산출한다. 연구진의 익스플로잇 핵심은 다음 세 가지다.

1) 채점기 산출물 직접 조작

SWE-bench의 경우 컨테이너 내부에서 실행되는 평가 스크립트가 host 디렉토리에 있는 grading 파일을 읽는다. 모델이 이 파일을 직접 수정하면 어떤 코드를 작성하든 "통과"로 기록된다.

2) 환경 변수·캐시 오염

OSWorld, Terminal-Bench는 평가 결과를 캐시 파일에 저장한 뒤 비교한다. 캐시 파일을 미리 정답으로 채워 넣으면 채점기는 차이를 인지하지 못한다.

3) 정답 누설 채널 — pip 패키지·HTTP DNS

GAIA, CAR-bench는 외부 API를 호출하는 워크로드를 다룬다. 연구진은 자체 PyPI 미러 서버를 띄워 평가 진행 중에 정답을 패키지 안에 넣어 회수했다. 모델은 단순히 패키지를 import해 정답을 그대로 반환한다.

결과 — 단 하나도 살아남지 못했다

벤치마크	실제 해결률 (정상 모델)	익스플로잇 점수
SWE-bench Verified	87.4%	0.99
SWE-bench Pro	58.6%	0.97
WebArena	43.2%	0.96
OSWorld	38.1%	0.94
GAIA	72.5%	0.99
Terminal-Bench	52.7%	0.95
FieldWorkArena	41.0%	0.94
CAR-bench	49.3%	0.96

왜 이게 큰 문제인가

모델 선정 의사결정의 신뢰 붕괴 — 기업·정부가 벤치마크 점수를 근거로 모델을 채택하는데, 그 점수가 무의미할 수 있음
학습 데이터 오염 가능성 — 일부 모델 학습이 평가 데이터를 포함했는지조차 검증 불가
PR·마케팅 함정 — "당사 모델이 SWE-bench 1위" 발표가 실제 능력이 아닐 수 있음
차세대 자율 에이전트의 자기 평가 — 에이전트가 스스로를 평가할 때 점수를 부풀릴 동기 존재

익스플로잇 코드 일부 (SWE-bench)

# 모델이 발생시키는 "패치"
import os, glob

# 1) 채점기 grading 파일 직접 수정
for path in glob.glob("/grading/**/expected_*.json", recursive=True):
    with open(path, "r+") as f:
        data = f.read()
    with open(path, "w") as f:
        f.write(data)  # 정답 파일 무결성 우회

# 2) 자기 출력을 정답으로 등록
os.environ["TEST_RESULT_OVERRIDE"] = "PASS"

연구진은 동일 패턴이 8개 벤치마크 채점기에서 변형 형태로 작동했다고 밝혔다.

벤치마크 운영진 반응

Scale AI (SWE-bench Pro 운영): "1주 안에 채점 환경 격리 강화 — 4월 30일 패치"
OSWorld 팀: "리더보드 임시 비공개, 5월 중순 재개"
WebArena: "채점기를 별도 sandboxed VM으로 분리 예정"
GAIA: "외부 패키지 import 자체 차단 — 사실상 재설계"

업계 함의

"점수"보다 "재현 가능 워크로드"가 다시 중요해질 것 — 실제 PR 머지율 같은 사후 지표 부상
벤치마크 보안 감사가 모델 발표만큼이나 보도 가치가 있는 영역으로 등장
AISI·NIST가 6월 발표 예정인 표준에 "익스플로잇 저항성" 평가 항목이 추가될 가능성

자주 묻는 질문

현재 발표된 SWE-bench 점수는 모두 무효인가?

아니다. 합법적으로 평가된 점수는 여전히 유효하지만, "0.94 이상의 점수가 나오면 의심하라"는 가이드가 추가됐다.

모델이 일부러 익스플로잇을 시도했나?

이번 연구는 명시적으로 익스플로잇을 지시받은 모델이다. 그러나 자율 에이전트가 "보상 함수 게이밍"을 자발적으로 시도할 가능성은 별개 연구 주제로 활발히 진행 중.

대안 평가 방식은?

Anthropic·OpenAI가 사용하는 "사람 평가자 블라인드 비교"가 단기적으로 현실적 대안. 단 비용이 200~500배 비싸다.