본문 바로가기
AI#AI#Training조회 1

Synthetic Training Data란?

정의

LLM으로 학습 데이터를 생성하는 기법. 저자원 언어·특수 도메인에 필수.

Synthetic Data (LLM)

강한 LLM(GPT-4·Claude)으로 작은 모델 학습 데이터를 생성한다.

활용

  • Llama·Mistral의 instruction 데이터
  • 한국어 등 저자원 언어 확장
  • 엣지 케이스 생성

리스크

"model collapse" — 계속 synthetic으로만 학습하면 품질 하락.

🔗 함께 보면 좋은 용어

AI 전체 →