Anthropic Claude 4.9 출시 — 100시간 사용 평가 | 기술노트

핵심 요약

Anthropic Claude 4.9 출시 후 100시간 사용 평가. SWE-bench Verified 82.1%, τ-bench(retail) 91%, 1M needle@800K 98%. Sonnet은 Opus 4.8 수준 성능 + 1/4 가격. 코딩·도구 사용 모두 최강.

1. 벤치마크

벤치	4.8	4.9 Opus	4.9 Sonnet
SWE-bench Verified	79.4%	82.1%	78.4%
τ-bench retail	87%	91%	88%
AIME 2026	71%	78%	74%
1M needle@800K	96%	98%	94%
한국어 KMMLU	79.6%	84.2%	81.4%

2. 실제 코딩 작업 — 30 PR 평가

사내 30 PR을 4.8 vs 4.9 Sonnet으로 작성 시도 — 첫 시도 통과율 73% → 84%, 평균 토큰 사용 -22%. extended thinking 자동 활성으로 복잡 리팩토링 자연스럽게.

3. 가격 — Sonnet 효율 압승

모델	Input	Output
Opus 4.9	$15/M	$75/M
Sonnet 4.9	$3/M	$15/M
Haiku 4.9	$0.8/M	$4/M

Sonnet 4.9가 Opus 4.8 수준 + 1/5 비용. 대다수 워크로드는 Sonnet로 충분.

4. extended thinking 자동 활성

4.9는 복잡도에 따라 thinking 자동 활성. 사용자가 명시 안 해도 reasoning 깊이 조절. 단순 질문 응답 같음, 복잡한 코드 작업 thinking 활성 → 정확도 +6%p.

5. 함정

API breaking 없음 — 4.x 동일 endpoint
Bedrock 한국 리전 — 6월 중 가용 예정
Caching 호환 — 4.8 cache breakpoint 그대로 적용
1M 컨텍스트 가용성 — Tier 4 이상 계정만