본문 바로가기

AI#AI#Safety#Anthropic조회 99

Constitutional AI란?

정의

Anthropic이 제안한 정렬 방법. 사람 대신 AI가 헌법적 원칙으로 자기 출력을 평가·개선.

Constitutional AI란?

RLHF는 사람이 선호도 라벨링을 해야 해 확장이 어렵다. CAI는 "헌법(원칙 목록)"을 정하고 AI가 스스로 평가한다.

2단계

Supervised: 모델이 헌법에 따라 자기 출력을 비판·수정
RL from AI Feedback (RLAIF): 비판 모델이 선호도 라벨링

Claude 정렬의 핵심 방법론.

🔗 함께 보면 좋은 용어

멀티 에이전트 오케스트레이션

Supervisor·Hierarchy·Network 패턴으로 여러 에이전트 조율.

청킹 전략 상세

고정·문장·계층·의미론적·Agentic 청킹. RAG 품질의 결정.

추론 지연 최적화

TTFT·TPS·Batching·KV Cache·Speculative·Quantization 조합.

Agent-to-Agent Protocol

에이전트 간 통신 표준. Google이 제안. MCP와 상호 보완.

전체 예측 중 맞춘 비율. 클래스 불균형 시 오해를 유발할 수 있음.

Activation Function

신경망 뉴런의 비선형 변환. ReLU·GELU·Sigmoid·Tanh.