핵심 요약
Anthropic Claude 4.9 출시 후 100시간 사용 평가. SWE-bench Verified 82.1%, τ-bench(retail) 91%, 1M needle@800K 98%. Sonnet은 Opus 4.8 수준 성능 + 1/4 가격. 코딩·도구 사용 모두 최강.
1. 벤치마크
| 벤치 | 4.8 | 4.9 Opus | 4.9 Sonnet |
|---|---|---|---|
| SWE-bench Verified | 79.4% | 82.1% | 78.4% |
| τ-bench retail | 87% | 91% | 88% |
| AIME 2026 | 71% | 78% | 74% |
| 1M needle@800K | 96% | 98% | 94% |
| 한국어 KMMLU | 79.6% | 84.2% | 81.4% |
2. 실제 코딩 작업 — 30 PR 평가
사내 30 PR을 4.8 vs 4.9 Sonnet으로 작성 시도 — 첫 시도 통과율 73% → 84%, 평균 토큰 사용 -22%. extended thinking 자동 활성으로 복잡 리팩토링 자연스럽게.
3. 가격 — Sonnet 효율 압승
| 모델 | Input | Output |
|---|---|---|
| Opus 4.9 | $15/M | $75/M |
| Sonnet 4.9 | $3/M | $15/M |
| Haiku 4.9 | $0.8/M | $4/M |
Sonnet 4.9가 Opus 4.8 수준 + 1/5 비용. 대다수 워크로드는 Sonnet로 충분.
4. extended thinking 자동 활성
4.9는 복잡도에 따라 thinking 자동 활성. 사용자가 명시 안 해도 reasoning 깊이 조절. 단순 질문 응답 같음, 복잡한 코드 작업 thinking 활성 → 정확도 +6%p.
5. 함정
- API breaking 없음 — 4.x 동일 endpoint
- Bedrock 한국 리전 — 6월 중 가용 예정
- Caching 호환 — 4.8 cache breakpoint 그대로 적용
- 1M 컨텍스트 가용성 — Tier 4 이상 계정만

댓글 0