핵심 요약
AWS 서울 리전(ap-northeast-2)에서 5월 11일 새벽 2시 14분부터 4시 09분까지 약 1시간 55분 대규모 장애가 발생했다. EC2·RDS·S3 등 주요 서비스 응답 시간이 P99 기준 30초 이상으로 폭증, 일부 가용 영역(AZ)에서는 완전 다운까지 발생했다.
- 장애 시각: 2026-05-11 02:14 ~ 04:09 KST
- 주 원인: 네트워크 라우터 BGP 설정 오류 (자체 발표)
- 영향 AZ: ap-northeast-2a, ap-northeast-2c (전체 4개 중 2개)
- 영향 서비스: EC2, RDS, S3, Lambda, DynamoDB 등
장애 타임라인
| 시각 | 이벤트 |
|---|---|
| 02:14 | 네트워크 라우팅 정책 푸시 (잘못된 BGP route preference) |
| 02:17 | EC2 인스턴스 약 18% 응답 불가 시작 |
| 02:25 | AWS Status Page에 'Degraded performance' 표시 |
| 02:42 | S3 PutObject 5xx 비율 30% 도달 |
| 03:05 | 긴급 롤백 시작 |
| 03:48 | 대부분 트래픽 정상화 |
| 04:09 | 모든 서비스 SLA 수준 복귀 선언 |
주요 영향 서비스 (한국 사용자 기준)
- Stripe: 한국 가맹점 결제 API 30분간 일부 실패 — 5xx 비율 8% 도달
- Notion: 한국 사용자 워크스페이스 로드 지연 — 평균 10초+
- Slack: 한국 팀 일부 채널 메시지 송수신 지연
- Linear: 한국 사용자 일시 로그인 불가
- 토스 일부 서비스: 백오피스 비핵심 시스템 단기 지연 (사용자 영향 없음)
- 당근마켓: 게시 이미지 업로드 지연 (S3 의존)
국내 vs 글로벌 의존도
한국 핀테크·이커머스는 대부분 AWS 멀티 AZ 구성으로 직접 다운은 면했지만, AWS의 글로벌 SaaS(Stripe·Notion·Slack 등)에 의존하는 부분에서 영향을 받았다. 즉 직접 의존이 아닌 "의존하는 서비스가 AWS를 쓴다"는 간접 영향이 한국 영향의 70%였다.
AWS 발표 — SLA 자동 보상
AWS는 사고 약 5시간 뒤 한국 고객에게 다음을 안내했다.
- EC2: SLA(99.99%) 위반분 자동 크레딧 (10%)
- S3: SLA(99.9%) 위반분 자동 크레딧 (10%)
- RDS Multi-AZ: SLA(99.99%) 위반 — 자동 크레딧 (25%)
- 전체 영향 받은 계정에 대해 별도 신청 없이 적용
이번 사고가 특별한 이유
지난 4개월 사이 AWS, GCP, Azure, KT 클라우드 모두 한국 리전에서 사고가 한 번씩 발생했다. "모든 사업자가 한국에서 한 번씩 다운된 분기" 라는 우스개도 나온다. 진짜 의미: "단일 사업자 = 단일 장애 지점" 이 더 이상 가능하지 않다는 인식이 확산.
업계 대응
- 토스: 결제 인프라의 멀티 클라우드 구성 가속
- 카카오: KT·NHN 클라우드와의 백업 합의 검토
- 당근: 이미지 저장소를 S3 단독에서 S3 + Cloudflare R2로 이중화
- 네이버 클라우드: "이런 때를 위해 우리가 있다" 마케팅 — 신규 가입 24시간 -50% 프로모션
전문가 코멘트
박정선 KISA 책임연구원은 "AWS도 BGP 라우팅 오류로 다운된다. 인프라는 영원한 안정이 없다"며 "BCP의 핵심은 '클라우드 사업자 분산'이 아니라 '서비스 분산'"이라고 강조했다. 한 SRE 시니어는 "이번엔 1시간 55분이지만, 향후 누군가는 6시간 다운이 올 것이다. 그때 살아남는 회사가 진짜 잘 만든 것"이라고 경고했다.

댓글 0