Gradient Checkpointing
대형 모델 학습 시 메모리 60%+ 절감. forward 중 일부 중간값을 저장하지 않고 backward에서 재계산.
LLM fine-tune의 필수 기법.
중간 activation을 버리고 역전파 때 다시 계산. 메모리 절약하고 속도는 약간 희생.
대형 모델 학습 시 메모리 60%+ 절감. forward 중 일부 중간값을 저장하지 않고 backward에서 재계산.
LLM fine-tune의 필수 기법.