SGD란?
전체 데이터 대신 무작위 샘플(mini-batch)로 기울기를 추정한다. 빠르고 메모리 효율적.
모멘텀
과거 그래디언트를 누적해 진동을 줄이고 수렴을 빠르게. 현재 대부분의 옵티마이저 기본 포함.
무작위 샘플로 그래디언트를 추정하는 경사 하강법. 대용량 학습의 기본.
전체 데이터 대신 무작위 샘플(mini-batch)로 기울기를 추정한다. 빠르고 메모리 효율적.
과거 그래디언트를 누적해 진동을 줄이고 수렴을 빠르게. 현재 대부분의 옵티마이저 기본 포함.