DeepSeek이 R1에서 사용한 강화학습 기법. critic 없는 PPO 변형.
한 프롬프트에 여러 응답을 샘플해 그룹 내 상대 보상으로 학습. 별도 value model 불필요 — 메모리·비용 절감.