Dropout이란?
학습 중 각 뉴런을 확률 p로 일시적으로 끄는 기법이다. 2014년 Hinton 제안.
효과
- 특정 뉴런 의존성 방지
- 앙상블 효과 (매번 다른 서브네트워크)
- 과적합 감소
Transformer는 attention·FFN 양쪽에 적용.
학습 중 무작위로 일부 뉴런을 비활성화해 과적합을 막는 정규화 기법.
학습 중 각 뉴런을 확률 p로 일시적으로 끄는 기법이다. 2014년 Hinton 제안.
Transformer는 attention·FFN 양쪽에 적용.