2025-11-21

1일 1아티클

Cloudflare

서비스 중단 문제

배경

  • 2025년 11월 18일 오전 11시 20분(UTC)
  • Cloudflare 네트워크에서 핵심 네트워크 트래픽 전송에 심각한 장애 발생
  • 고객 사이트 접속 시도 시, 사용자에게 500 error page 표시

원인 분석

  • 초기에는 대규모 DDoS 공격으로 오인 → 사이버 공격 등의 악의적 활동에 인한 것이 아니었음
  • DB 시스템 권한 중 하나의 변경 → DB가 봇 관리 시스템에서 사용하는 기능 파일에 여러 항목 출력
    • 기능 파일의 크기 두 배로 확장 → 예상보다 큰 기능 파일이 되어, 네트워크 구성하는 모든 머신으로 전파
    • 소프트웨어는 봇 관리 시스템을 최신 상태로 유지하는데, 기능 파일 크기에 두 배보단 작은 제한을 두고 있었음 → 소프트웨어 작동 실패

특이점

  • 5xx 오류 상태 코드의 양이 급증과 급감을 반복 → 시스템이 일정 기간 복구되었다는 것
    • 내부 오류에서 보기 드문 현상
  • 문제 파일은 ClickHouse DB 클러스터에서 실행되는 쿼리에 의해 5분마다 생성, 권한 관리 개선을 위한 점진적 업데이트 수행
    • 잘못된 데이터는 업데이트된 클러스터 일부에서 쿼리가 실행되었을 때에만 생성
    • 결론 : 5분마다 정상 또는 불량 구성 파일 세트 생성, 네트워크를 통한 빠른 전파
    • 전체 시스템이 복구되었다가 장애가 발생하는 상황이 반복됨 → 원인 파악에 어려움을 겪음

개선 및 후속 조치

  1. 사용자 생성 입력과 동일한 방식으로 Cloudflare에서 생성된 구성 파일 수집 강화
  2. 기능에 대한 더 많은 글로벌 킬 스위치 활성화
  3. 코어 덤프, 기타 오류 보고서로 인해 시스템 리소스가 과부하되지 않도록 방지
  4. 모든 핵심 프록시 모듈의 오류 조건에 대한 실패 모드 검토

오늘 배운 것

  1. 관통 프로젝트

내일 할 일

참고자료

results matching ""

    No results matching ""