본문 바로가기
AI#AI#LLM#Alignment조회 2

RLHF란?Reinforcement Learning from Human Feedback

정의

사람의 선호도로 보상 모델을 학습하고, 이를 강화학습으로 LLM에 주입해 "사람이 좋아하는" 응답을 생성하게 하는 기법.

다른 표현RLHF인간 피드백 강화학습

RLHF란?

ChatGPT가 일반 GPT-3 대비 훨씬 "친절하고 안전한" 답변을 하는 핵심 이유다. 세 단계로 진행된다.

3단계

  1. SFT — 지시 따르기 예시로 지도학습
  2. RM — 사람이 "A vs B" 선호도 라벨링, 보상 모델 학습
  3. PPO/DPO — 보상 모델 점수를 최대화하도록 강화학습

최근 트렌드

DPO(Direct Preference Optimization)가 더 단순·안정적이라 많이 쓰임. Constitutional AI는 사람 대신 AI 판단으로 대체하는 Anthropic 방식.

🔗 함께 보면 좋은 용어

AI 전체 →