지시-응답 페어 데이터로 LLM을 파인튜닝. ChatGPT 탄생의 핵심.
Pre-train된 LLM은 "이어쓰기" 모드. 지시를 따르도록 추가 학습해 사용자 지시를 이해하게 만든다.
RLHF의 첫 단계(SFT)에 해당.