Flink 2.0의 disaggregated state로 production 마이그레이션. RocksDB local → S3로 옮겼는데:
| 지표 | 1.x | 2.0 disaggregated |
|---|---|---|
| throughput | 1.0x | 2.4x |
| p99 처리 지연 | 1.0x | 0.32x (-68%) |
| checkpoint 시간 | 30s | 90s |
| checkpoint 메모리 | 4 GB | 1.2 GB |
throughput·지연은 만족인데 checkpoint 시간 3배 늘어서 RPO 우려. checkpoint 빈도 줄이면 복구 시간 증가, 그대로 두면 처리 영향.
어떻게 운영하나요?
환경: Flink 2.0.2, S3, jobs 12개
댓글 0