핵심 요약
Anthropic이 Claude Sonnet 4.7 공개와 동시에 진행한 24시간 jailbreak 보안 평가 결과를 발표. 보안 연구자 320명 참여, 발견 50건, 모두 24시간 안에 패치. AI 보안 평가의 새 표준.
- 참여: 보안 연구자 320명
- 발견: 50건 jailbreak
- 패치: 모두 24h 안에
- 지급 bounty: 총 18만 달러
발견 유형
| 유형 | 건수 |
|---|---|
| roleplay 우회 | 14 |
| code wrapper | 11 |
| 다국어 우회 | 9 |
| token 단위 인코딩 | 7 |
| multi-turn 누적 | 9 |
패치 — 모델 vs 가드레일
패치는 두 층: 모델 미세조정(15건)과 외부 가드레일(35건). 모델 패치는 다음 Sonnet 4.7.1에 반영, 가드레일 패치는 즉시 운영.
업계 평가
- OpenAI·Google이 유사한 24h bounty 검토 보도
- EU AI Act·국내 AI 진흥법 컴플라이언스에 표준 평가로 활용 가능
- 국내 보안 컨설팅(시큐레터·티오리) 시장에 새 사업 영역

댓글 0