2025-11-21
1일 1아티클
Cloudflare
서비스 중단 문제
배경
- 2025년 11월 18일 오전 11시 20분(UTC)
- Cloudflare 네트워크에서 핵심 네트워크 트래픽 전송에 심각한 장애 발생
- 고객 사이트 접속 시도 시, 사용자에게 500 error page 표시
원인 분석
- 초기에는 대규모 DDoS 공격으로 오인 → 사이버 공격 등의 악의적 활동에 인한 것이 아니었음
- DB 시스템 권한 중 하나의 변경 → DB가 봇 관리 시스템에서 사용하는 기능 파일에 여러 항목 출력
- 기능 파일의 크기 두 배로 확장 → 예상보다 큰 기능 파일이 되어, 네트워크 구성하는 모든 머신으로 전파
- 소프트웨어는 봇 관리 시스템을 최신 상태로 유지하는데, 기능 파일 크기에 두 배보단 작은 제한을 두고 있었음 → 소프트웨어 작동 실패
특이점
- 5xx 오류 상태 코드의 양이 급증과 급감을 반복 → 시스템이 일정 기간 복구되었다는 것
- 내부 오류에서 보기 드문 현상
- 문제 파일은 ClickHouse DB 클러스터에서 실행되는 쿼리에 의해 5분마다 생성, 권한 관리 개선을 위한 점진적 업데이트 수행
- 잘못된 데이터는 업데이트된 클러스터 일부에서 쿼리가 실행되었을 때에만 생성
- 결론 : 5분마다 정상 또는 불량 구성 파일 세트 생성, 네트워크를 통한 빠른 전파
- 전체 시스템이 복구되었다가 장애가 발생하는 상황이 반복됨 → 원인 파악에 어려움을 겪음
개선 및 후속 조치
- 사용자 생성 입력과 동일한 방식으로 Cloudflare에서 생성된 구성 파일 수집 강화
- 기능에 대한 더 많은 글로벌 킬 스위치 활성화
- 코어 덤프, 기타 오류 보고서로 인해 시스템 리소스가 과부하되지 않도록 방지
- 모든 핵심 프록시 모듈의 오류 조건에 대한 실패 모드 검토
오늘 배운 것
- 관통 프로젝트