저희 production Kafka 클러스터를 3.7 → 4.0(KRaft)로 옮길 예정입니다. 공식 가이드는 dual-write → KRaft controller quorum → migration finalize로 다운타임 0초라고 하는데, 정말 production에서 진짜 0초 가능했는지 경험담 듣고 싶습니다.
저희 환경
- Kafka 3.7.1 + ZK 3.8, 9 브로커 + 3 ZK
- 피크 처리량: 초당 80만 msg, 400 MB/s
- 토픽 320개, partition 8,400개
- downstream: Flink, Spark, KSQL, 사내 컨슈머 100+
관련해서:
- 실제 다운타임이 0이었나, 아니면 짧은 페일오버 정도는 있었나
- controller quorum 띄울 때 hardware spec은 어떻게 잡았나
- 마이그레이션 중간 단계에서 rollback 해본 사람 있나
- downstream에서 클라이언트 라이브러리 업그레이드 필요했나
댓글 0