RLHF란?
ChatGPT가 일반 GPT-3 대비 훨씬 "친절하고 안전한" 답변을 하는 핵심 이유다. 세 단계로 진행된다.
3단계
- SFT — 지시 따르기 예시로 지도학습
- RM — 사람이 "A vs B" 선호도 라벨링, 보상 모델 학습
- PPO/DPO — 보상 모델 점수를 최대화하도록 강화학습
최근 트렌드
DPO(Direct Preference Optimization)가 더 단순·안정적이라 많이 쓰임. Constitutional AI는 사람 대신 AI 판단으로 대체하는 Anthropic 방식.