본문 바로가기
AI#AI#Safety조회 25

Red Teaming (AI)란?

정의

AI 시스템의 취약점·잘못된 동작을 의도적으로 탐색하는 적대적 테스트.

AI Red Teaming이란?

군사·보안 용어에서 온 개념. "공격자 입장"에서 AI의 약점을 찾는다.

대상

  • Jailbreak 기법
  • Prompt injection
  • 편향·혐오 발언 유도
  • 개인정보 유출
  • 위험 정보 생성

OpenAI·Anthropic·Google 모두 모델 출시 전 필수로 수행.

🔗 함께 보면 좋은 용어

AI 전체 →