2025-09-19

1일 1아티클

카카오페이 테크

서비스 상태 가시화

배경

  • 모니터링, 옵저버빌리티, 트레이싱 등 기술적으로 서비스 상태 가시화는 고도화된 상태
  • 고객 관점에서의 서비스 상태는? (장애 발생 시)
    • 지금 고객들이 실제로 겪고 있을 불편
    • 고객센터에서 설명해야 할 내용
    • 정상화 시점
  • 고객 경험과 직결되는 이러한 문제 해결 필요

AS-IS 장애 프로세스

  1. 장애 발생
  2. 다양한 경로를 통해 장애 상황 감지, 누군가에 의해 장애 등록 기능 직접 호출
    • 장애 등록 기능 : 지라 티켓(장애 보고서) 생성, 슬랙 채널 방을 생성해 전사 공지
  3. 생성된 슬랙 채널방에 담당자 초대, 장애 확인 및 현황 공유
    • 이 시점에서 서비스 담당자는 조치 진행
    • 고객 문의 발생 시, 고객센터 크루도 슬랙 채널에 조인해 현황 확인 후 응대
  4. 장애 조치 완료 후, 장애 보고서에 상세 내용 작성 후 포스트모템 진행

기존 프로세스 문제점

  1. 장애 영향도 파악 및 담당자 확인에 병목 현상 자주 발생
    • 게이트웨이성 서비스 담당자들은 해당 게이트웨이를 사용하는 모든 서비스 장애 상황에 불필요하게 호출
  2. 서비스 담당자는 장애 대응으로 인해 실시간 현황 공유 어려움
  3. 고객센터 크루들이 고객 응대에 필요한 정보 파악 어려움
    • 콜센터 고객 대기 시간 증가, 고객 이탈률 증가
  4. 장애 조치 내역 및 타임라인 등을 보고서에 작성할 때 많은 리소스 소모
  5. 급한 상황일 때, 장애를 탐지한 채널에서 바로 커뮤니케이션하는 경우가 자주 있어 전체 내용 확인 어려움

TO-BE 장애 프로세스

  1. 장애 발생 시 핑크와드(이하 핑와)는 웹훅 수신, 자동으로 장애 등록 프로세스 수행
  2. 웹훅 정보를 통해 핑와가 담당자 식별 후 초대
    • 동시에 핑와 대시보드에서는 관련 서비스들을 장애 상태로 표현
  3. 장애 조치 관련 정보 입력 폼 제공
    • 담당자가 자유롭게 장애 원인 및 영향도, 복구 예상 시각 작성
    • 작성된 정보는 슬랙 및 대시보드에서 확인 용이
  4. 슬랙 채널의 대화 내용을 주기적으로 요약해 대시보드에 제공
  5. 장애 해소 후, 장애 보고서 및 포스트모템용 문서 자동 생성
    • 슬랙 채널의 대화 내용 기반으로 AI가 초안 작성

아키텍처

  1. Amazon Bedrock 기반 내부 챗봇 (LLM API 제공)
  2. 내부 생산성 플랫폼 (메타데이터 관리, 애플리케이션 배포 및 이력 관리)
  3. 그라파나 (메트릭 확인), 오픈서치 (로그 확인) (알림 설정)

핑와 내부 개념

  1. 서비스
    • 대고객 서비스의 큰 분류 (ex. 계좌, 홈, 주문, etc.)
    • 고객이 실제 인식, 구분하는 서비스 분류 기준
  2. 리소스
    • 장애 감지 단위
    • 리소스 기준 장애 감지 및 알림
    • 애플리케이션과 인프라플랫폼으로 구분
    • 애플리케이션 : 위캔에서 관리되는 서비스 애플리케이션 단위
    • 인프라플랫폼 : 애플리케이션들이 사용하는 인프라 플랫폼 (ex. DB, Redis, Kafka, k8s cluster, etc.)
  3. 장애
    • 내부에서 관리되는 장애 티켓 단위

성과

  • 장애 프로세스 67% 단축
  • 장애 보고서 작성 시간 80% 감소
  • 고객 응대 정보 파악 시간 90% 감소
  • 장애 상황의 심리적 안정감 증가

오늘 배운 것

내일 할 일

참고자료

results matching ""

    No results matching ""