본문 바로가기
보안2026년 5월 24일1분 읽기

Anthropic Claude Jailbreak Bounty 24h — “최대 50건 발견, 모두 패치”

YS
김영삼
조회 427
Anthropic Claude Jailbreak Bounty 24h — “최대 50건 발견, 모두 패치”

핵심 요약

Anthropic이 Claude Sonnet 4.7 공개와 동시에 진행한 24시간 jailbreak 보안 평가 결과를 발표. 보안 연구자 320명 참여, 발견 50건, 모두 24시간 안에 패치. AI 보안 평가의 새 표준.

  • 참여: 보안 연구자 320명
  • 발견: 50건 jailbreak
  • 패치: 모두 24h 안에
  • 지급 bounty: 총 18만 달러

발견 유형

유형건수
roleplay 우회14
code wrapper11
다국어 우회9
token 단위 인코딩7
multi-turn 누적9

패치 — 모델 vs 가드레일

패치는 두 층: 모델 미세조정(15건)과 외부 가드레일(35건). 모델 패치는 다음 Sonnet 4.7.1에 반영, 가드레일 패치는 즉시 운영.

업계 평가

  • OpenAI·Google이 유사한 24h bounty 검토 보도
  • EU AI Act·국내 AI 진흥법 컴플라이언스에 표준 평가로 활용 가능
  • 국내 보안 컨설팅(시큐레터·티오리) 시장에 새 사업 영역

댓글 0

아직 댓글이 없습니다.
Ctrl+Enter로 등록