Distillation이란?
대형 모델의 출력 분포를 작은 모델이 모방하도록 학습시키는 기법이다. 정답 레이블보다 풍부한 정보(확률 분포)를 전달한다.
왜 쓰나
- 배포용 모델 크기·비용 절감
- 엣지·모바일용 경량 모델
- 교사 모델을 직접 공개 못할 때 student만 공개
실제 예
Gemma(Gemini 증류), DistilBERT, Llama 3 Small 등. Haiku 계열도 Opus 증류로 비용·속도 확보.
큰 모델(teacher)의 출력을 작은 모델(student)이 따라 하도록 학습시켜 성능을 최대한 유지하며 크기를 줄이는 기법.
대형 모델의 출력 분포를 작은 모델이 모방하도록 학습시키는 기법이다. 정답 레이블보다 풍부한 정보(확률 분포)를 전달한다.
Gemma(Gemini 증류), DistilBERT, Llama 3 Small 등. Haiku 계열도 Opus 증류로 비용·속도 확보.