SFT란?Pre-train된 LLM에 지시-응답 예제 데이터로 추가 학습해 대화 가능하게 만든다.RLHF의 1단계SFT — 지시 따르기RM — 보상 모델RL (PPO/DPO) — 보상 최대화