AI가 평가자 역할을 해 사람 라벨을 대체. RLHF의 비용 대안.
강력한 LLM이 선호 데이터 생성 → 작은 모델 훈련. 사람 라벨 비용 제거. Anthropic·Google 연구 다수.