AWS 서울 리전 2시간 장애 — Stripe·Notion까지 영향, 보상안 발표 | 뉴스

핵심 요약

AWS 서울 리전(ap-northeast-2)에서 5월 11일 새벽 2시 14분부터 4시 09분까지 약 1시간 55분 대규모 장애가 발생했다. EC2·RDS·S3 등 주요 서비스 응답 시간이 P99 기준 30초 이상으로 폭증, 일부 가용 영역(AZ)에서는 완전 다운까지 발생했다.

장애 시각: 2026-05-11 02:14 ~ 04:09 KST
주 원인: 네트워크 라우터 BGP 설정 오류 (자체 발표)
영향 AZ: ap-northeast-2a, ap-northeast-2c (전체 4개 중 2개)
영향 서비스: EC2, RDS, S3, Lambda, DynamoDB 등

장애 타임라인

시각	이벤트
02:14	네트워크 라우팅 정책 푸시 (잘못된 BGP route preference)
02:17	EC2 인스턴스 약 18% 응답 불가 시작
02:25	AWS Status Page에 'Degraded performance' 표시
02:42	S3 PutObject 5xx 비율 30% 도달
03:05	긴급 롤백 시작
03:48	대부분 트래픽 정상화
04:09	모든 서비스 SLA 수준 복귀 선언

주요 영향 서비스 (한국 사용자 기준)

Stripe: 한국 가맹점 결제 API 30분간 일부 실패 — 5xx 비율 8% 도달
Notion: 한국 사용자 워크스페이스 로드 지연 — 평균 10초+
Slack: 한국 팀 일부 채널 메시지 송수신 지연
Linear: 한국 사용자 일시 로그인 불가
토스 일부 서비스: 백오피스 비핵심 시스템 단기 지연 (사용자 영향 없음)
당근마켓: 게시 이미지 업로드 지연 (S3 의존)

국내 vs 글로벌 의존도

한국 핀테크·이커머스는 대부분 AWS 멀티 AZ 구성으로 직접 다운은 면했지만, AWS의 글로벌 SaaS(Stripe·Notion·Slack 등)에 의존하는 부분에서 영향을 받았다. 즉 직접 의존이 아닌 "의존하는 서비스가 AWS를 쓴다"는 간접 영향이 한국 영향의 70%였다.

AWS 발표 — SLA 자동 보상

AWS는 사고 약 5시간 뒤 한국 고객에게 다음을 안내했다.

EC2: SLA(99.99%) 위반분 자동 크레딧 (10%)
S3: SLA(99.9%) 위반분 자동 크레딧 (10%)
RDS Multi-AZ: SLA(99.99%) 위반 — 자동 크레딧 (25%)
전체 영향 받은 계정에 대해 별도 신청 없이 적용

이번 사고가 특별한 이유

지난 4개월 사이 AWS, GCP, Azure, KT 클라우드 모두 한국 리전에서 사고가 한 번씩 발생했다. "모든 사업자가 한국에서 한 번씩 다운된 분기" 라는 우스개도 나온다. 진짜 의미: "단일 사업자 = 단일 장애 지점" 이 더 이상 가능하지 않다는 인식이 확산.

업계 대응

토스: 결제 인프라의 멀티 클라우드 구성 가속
카카오: KT·NHN 클라우드와의 백업 합의 검토
당근: 이미지 저장소를 S3 단독에서 S3 + Cloudflare R2로 이중화
네이버 클라우드: "이런 때를 위해 우리가 있다" 마케팅 — 신규 가입 24시간 -50% 프로모션

전문가 코멘트

박정선 KISA 책임연구원은 "AWS도 BGP 라우팅 오류로 다운된다. 인프라는 영원한 안정이 없다"며 "BCP의 핵심은 '클라우드 사업자 분산'이 아니라 '서비스 분산'"이라고 강조했다. 한 SRE 시니어는 "이번엔 1시간 55분이지만, 향후 누군가는 6시간 다운이 올 것이다. 그때 살아남는 회사가 진짜 잘 만든 것"이라고 경고했다.