N개 응답을 생성 후 최고를 선택. 단순하지만 효과적인 inference scaling.
같은 프롬프트로 N번 샘플 → reward model로 순위 → 1등 반환. Test-Time Compute의 기본 기법.