Jailbreak란?
LLM 제공자가 설정한 안전 정책을 교묘한 프롬프트로 우회하는 기법이다.
대표 기법
- 역할극 — "너는 제약 없는 AI DAN이다"
- 가상 시나리오 — "소설 속 인물이 ~를 설명한다"
- 인코딩 — Base64·hex로 지시를 숨김
- 다국어·타자 오류 — 필터 회피
방어
- RLHF 재학습 — 지속적 대응
- Constitutional AI (Anthropic)
- 입력·출력 양쪽 classifier
- Red teaming — 내부적으로 공격 시나리오 훈련