강력한 모델로 SFT 데이터 생성. RLAIF의 데이터 준비.
GPT-4·Claude로 instruction-response 쌍 생성 → 작은 모델 SFT. Llama 3·Gemma 2도 활용.