DPO란?
RLHF의 PPO를 생략하고 선호도 데이터만으로 직접 LLM을 최적화한다. 2023 논문.
장점
- 보상 모델 학습 불필요
- PPO의 불안정성 해결
- 코드 간결
현재
Llama·Mistral 등 많은 모델이 DPO로 얼라인먼트.
RLHF의 단순·안정적 대안. 보상 모델 없이 선호도 데이터로 직접 최적화.
RLHF의 PPO를 생략하고 선호도 데이터만으로 직접 LLM을 최적화한다. 2023 논문.
Llama·Mistral 등 많은 모델이 DPO로 얼라인먼트.