본문 바로가기
AI2026년 6월 4일2분 읽기

Anthropic Claude 4.9 출시 — 100시간 사용 평가

YS
김영삼
조회 1111
Anthropic Claude 4.9 출시 — 100시간 사용 평가

핵심 요약

Anthropic Claude 4.9 출시 후 100시간 사용 평가. SWE-bench Verified 82.1%, τ-bench(retail) 91%, 1M needle@800K 98%. Sonnet은 Opus 4.8 수준 성능 + 1/4 가격. 코딩·도구 사용 모두 최강.

1. 벤치마크

벤치4.84.9 Opus4.9 Sonnet
SWE-bench Verified79.4%82.1%78.4%
τ-bench retail87%91%88%
AIME 202671%78%74%
1M needle@800K96%98%94%
한국어 KMMLU79.6%84.2%81.4%

2. 실제 코딩 작업 — 30 PR 평가

사내 30 PR을 4.8 vs 4.9 Sonnet으로 작성 시도 — 첫 시도 통과율 73% → 84%, 평균 토큰 사용 -22%. extended thinking 자동 활성으로 복잡 리팩토링 자연스럽게.

3. 가격 — Sonnet 효율 압승

모델InputOutput
Opus 4.9$15/M$75/M
Sonnet 4.9$3/M$15/M
Haiku 4.9$0.8/M$4/M

Sonnet 4.9가 Opus 4.8 수준 + 1/5 비용. 대다수 워크로드는 Sonnet로 충분.

4. extended thinking 자동 활성

4.9는 복잡도에 따라 thinking 자동 활성. 사용자가 명시 안 해도 reasoning 깊이 조절. 단순 질문 응답 같음, 복잡한 코드 작업 thinking 활성 → 정확도 +6%p.

5. 함정

  • API breaking 없음 — 4.x 동일 endpoint
  • Bedrock 한국 리전 — 6월 중 가용 예정
  • Caching 호환 — 4.8 cache breakpoint 그대로 적용
  • 1M 컨텍스트 가용성 — Tier 4 이상 계정만

댓글 0

아직 댓글이 없습니다.
Ctrl+Enter로 등록