EKS 1.32 + Karpenter v1.5로 운영 중입니다. Spot 인스턴스를 적극 활용하고 있는데 인스턴스 회수(disruption)가 너무 자주 일어나서 일부 batch job이 30분도 못 살아남습니다.
Karpenter v1.5의 disruption budget 설정을 어떻게 잡아야 batch job 안정성을 유지할 수 있을까요? 단순히 on-demand로 다 바꾸기는 비용이 부담입니다.
EKS 1.32 + Karpenter v1.5로 운영 중입니다. Spot 인스턴스를 적극 활용하고 있는데 인스턴스 회수(disruption)가 너무 자주 일어나서 일부 batch job이 30분도 못 살아남습니다.
Karpenter v1.5의 disruption budget 설정을 어떻게 잡아야 batch job 안정성을 유지할 수 있을까요? 단순히 on-demand로 다 바꾸기는 비용이 부담입니다.
댓글 0