AI Red Teaming이란?
군사·보안 용어에서 온 개념. "공격자 입장"에서 AI의 약점을 찾는다.
대상
- Jailbreak 기법
- Prompt injection
- 편향·혐오 발언 유도
- 개인정보 유출
- 위험 정보 생성
OpenAI·Anthropic·Google 모두 모델 출시 전 필수로 수행.
AI 시스템의 취약점·잘못된 동작을 의도적으로 탐색하는 적대적 테스트.
군사·보안 용어에서 온 개념. "공격자 입장"에서 AI의 약점을 찾는다.
OpenAI·Anthropic·Google 모두 모델 출시 전 필수로 수행.