Constitutional AI란?
RLHF는 사람이 선호도 라벨링을 해야 해 확장이 어렵다. CAI는 "헌법(원칙 목록)"을 정하고 AI가 스스로 평가한다.
2단계
- Supervised: 모델이 헌법에 따라 자기 출력을 비판·수정
- RL from AI Feedback (RLAIF): 비판 모델이 선호도 라벨링
Claude 정렬의 핵심 방법론.
Anthropic이 제안한 정렬 방법. 사람 대신 AI가 헌법적 원칙으로 자기 출력을 평가·개선.
RLHF는 사람이 선호도 라벨링을 해야 해 확장이 어렵다. CAI는 "헌법(원칙 목록)"을 정하고 AI가 스스로 평가한다.
Claude 정렬의 핵심 방법론.