Adam이란?
Adaptive Moment Estimation. 2014년 제안된 실무에서 가장 많이 쓰이는 옵티마이저다.
특징
- 각 파라미터에 적응형 학습률
- 1차·2차 모멘트 추정
- 하이퍼파라미터에 둔감
변형
AdamW (weight decay 분리) — 트랜스포머 학습 표준.
적응형 학습률 + 모멘텀을 결합한 최적화 알고리즘. 딥러닝 실무의 표준 선택.
Adaptive Moment Estimation. 2014년 제안된 실무에서 가장 많이 쓰이는 옵티마이저다.
AdamW (weight decay 분리) — 트랜스포머 학습 표준.