Anthropic, Claude 4.8 출시 — "에이전트 정확도 +14%p, 가격은 유지" | 뉴스

핵심 요약

Anthropic이 5월 25일 새벽 Claude 4.8 패밀리(Opus·Sonnet·Haiku)를 동시 출시했다. SWE-bench Verified 79.4%, 멀티턴 도구 사용 88.2%로 자사 4.7 대비 +14%p 향상. 가격은 4.7와 동일($15/M input)을 유지해 "성능만 끌어올린 인상"이 강하다.

Opus 4.8: SWE-bench 79.4%, 200K 컨텍스트 정확도 96.8%
Sonnet 4.7: Opus 4.7 수준 성능을 1/5 가격으로
Haiku 4.7: 한국어 BLEU 0.58 → 0.67
1M 컨텍스트는 Opus·Sonnet 모두 정식 GA

벤치마크

벤치	4.7	4.8	GPT-5.5
SWE-bench Verified	72.8%	79.4%	74.1%
τ-bench(retail)	78%	87%	83%
AIME 2026	61%	71%	72%
1M needle@800K	91%	96%	88%

업계 영향

코딩 에이전트 시장에서 Claude의 우위가 확대됐다. Cursor·Cognition·Replit·Vercel은 같은 날 기본 모델을 Sonnet 4.7로 일제히 전환. AWS Bedrock·GCP Vertex 동시 가용으로 엔터프라이즈 이전이 빠를 전망.

한국 시장

AWS Bedrock 서울 리전 동시 가용
한국어 사실 회상 정확도 +9.4%p, 존댓말 일관성 개선
네이버 D2 등 사내 봇 다수가 즉시 4.7로 업그레이드

핵심 요약

벤치마크

업계 영향

한국 시장

댓글 0