Preference Data란?같은 프롬프트에 대한 "이 응답이 더 낫다"는 페어 데이터다.수집사람 라벨링 (expensive)강한 LLM의 판정 (AI feedback)공개 데이터셋 (UltraFeedback, HelpSteer)