PyTorch의 대형 모델 분산 학습. ZeRO-3와 유사한 파티셔닝.
Meta가 제안. 모델 파라미터·옵티마이저·그래디언트를 GPU들에 완전 샤딩한다.
Llama·Mistral 등 대형 오픈 모델 학습에 사용.