본문 바로가기

AI#AI#Security#LLM조회 25

Jailbreak란?

정의

모델의 안전 가드레일을 우회해 금지된 응답을 끌어내는 시도. DAN·역할극·이진 인코딩 등 기법 다양.

다른 표현탈옥LLM 탈옥

Jailbreak란?

LLM 제공자가 설정한 안전 정책을 교묘한 프롬프트로 우회하는 기법이다.

대표 기법

역할극 — "너는 제약 없는 AI DAN이다"
가상 시나리오 — "소설 속 인물이 ~를 설명한다"
인코딩 — Base64·hex로 지시를 숨김
다국어·타자 오류 — 필터 회피

방어

RLHF 재학습 — 지속적 대응
Constitutional AI (Anthropic)
입력·출력 양쪽 classifier
Red teaming — 내부적으로 공격 시나리오 훈련

🔗 함께 보면 좋은 용어

멀티 에이전트 오케스트레이션

Supervisor·Hierarchy·Network 패턴으로 여러 에이전트 조율.

청킹 전략 상세

고정·문장·계층·의미론적·Agentic 청킹. RAG 품질의 결정.

추론 지연 최적화

TTFT·TPS·Batching·KV Cache·Speculative·Quantization 조합.

Agent-to-Agent Protocol

에이전트 간 통신 표준. Google이 제안. MCP와 상호 보완.

전체 예측 중 맞춘 비율. 클래스 불균형 시 오해를 유발할 수 있음.

Activation Function

신경망 뉴런의 비선형 변환. ReLU·GELU·Sigmoid·Tanh.