Synthetic Data (LLM)
강한 LLM(GPT-4·Claude)으로 작은 모델 학습 데이터를 생성한다.
활용
- Llama·Mistral의 instruction 데이터
- 한국어 등 저자원 언어 확장
- 엣지 케이스 생성
리스크
"model collapse" — 계속 synthetic으로만 학습하면 품질 하락.
LLM으로 학습 데이터를 생성하는 기법. 저자원 언어·특수 도메인에 필수.
강한 LLM(GPT-4·Claude)으로 작은 모델 학습 데이터를 생성한다.
"model collapse" — 계속 synthetic으로만 학습하면 품질 하락.