본문 바로가기
AI#AI#Safety#Anthropic조회 1

Constitutional AI란?

정의

Anthropic이 제안한 정렬 방법. 사람 대신 AI가 헌법적 원칙으로 자기 출력을 평가·개선.

Constitutional AI란?

RLHF는 사람이 선호도 라벨링을 해야 해 확장이 어렵다. CAI는 "헌법(원칙 목록)"을 정하고 AI가 스스로 평가한다.

2단계

  1. Supervised: 모델이 헌법에 따라 자기 출력을 비판·수정
  2. RL from AI Feedback (RLAIF): 비판 모델이 선호도 라벨링

Claude 정렬의 핵심 방법론.

🔗 함께 보면 좋은 용어

AI 전체 →