OpenAI가 제안한 강화학습 알고리즘. RLHF의 전통적 선택.
2017년 OpenAI 제안. 정책 업데이트를 너무 크게 하지 않도록 clip해 안정성 확보.
GPT-4·Claude 등 초기 LLM 정렬. 최근엔 DPO로 많이 대체.