본문 바로가기
AI#AI#LLM#Alignment조회 25

RLHF란?Reinforcement Learning from Human Feedback

정의

사람의 선호도로 보상 모델을 학습하고, 이를 강화학습으로 LLM에 주입해 "사람이 좋아하는" 응답을 생성하게 하는 기법.

다른 표현RLHF인간 피드백 강화학습

RLHF란?

ChatGPT가 일반 GPT-3 대비 훨씬 "친절하고 안전한" 답변을 하는 핵심 이유다. 세 단계로 진행된다.

3단계

  1. SFT — 지시 따르기 예시로 지도학습
  2. RM — 사람이 "A vs B" 선호도 라벨링, 보상 모델 학습
  3. PPO/DPO — 보상 모델 점수를 최대화하도록 강화학습

최근 트렌드

DPO(Direct Preference Optimization)가 더 단순·안정적이라 많이 쓰임. Constitutional AI는 사람 대신 AI 판단으로 대체하는 Anthropic 방식.

🔗 함께 보면 좋은 용어

AI 전체 →