본문 바로가기
Q&A2026년 6월 2일1분 읽기

Flink 2.0 disaggregated state — checkpoint 시간이 3배 늘었습니다

윤재현
조회 429댓글 4

Flink 2.0의 disaggregated state로 production 마이그레이션. RocksDB local → S3로 옮겼는데:

지표1.x2.0 disaggregated
throughput1.0x2.4x
p99 처리 지연1.0x0.32x (-68%)
checkpoint 시간30s90s
checkpoint 메모리4 GB1.2 GB

throughput·지연은 만족인데 checkpoint 시간 3배 늘어서 RPO 우려. checkpoint 빈도 줄이면 복구 시간 증가, 그대로 두면 처리 영향.

어떻게 운영하나요?

환경: Flink 2.0.2, S3, jobs 12개

댓글 0

아직 댓글이 없습니다.
Ctrl+Enter로 등록