본문 바로가기
AI#AI조회 30

DPO란?Direct Preference Optimization

정의

RLHF의 단순·안정적 대안. 보상 모델 없이 선호도 데이터로 직접 최적화.

DPO란?

RLHF의 PPO를 생략하고 선호도 데이터만으로 직접 LLM을 최적화한다. 2023 논문.

장점

  • 보상 모델 학습 불필요
  • PPO의 불안정성 해결
  • 코드 간결

현재

Llama·Mistral 등 많은 모델이 DPO로 얼라인먼트.

🔗 함께 보면 좋은 용어

AI 전체 →