본문 바로가기
Y
S
영삼넷
youngsam.net
프로그램
기술노트
뉴스
자료실
커뮤니티
소개
NEWS
뉴스
AI, 개발, IT 업계의 최신 소식을 전합니다.
태그 필터:
LLM벤치마크
×
"LLM벤치마크" 태그 뉴스
전체
AI
개발
보안
클라우드
오픈소스
업계
추천
전체
1
건
최신순
조회순
추천순
04.17
AI
SWE-bench Verified 4월 업데이트 — Claude가 GPT-5.4를 공식 추월 (80.8% vs ~80%)
2026년 4월 SWE-bench Verified 최신 결과에서 Claude Opus 4.6이 80.8%로 GPT-5.4의 약 80%를 공식 추월했다. 벤치마크의 의미, 한계, 실무 선택 기준을 정리한다.