2025-09-19
1일 1아티클
카카오페이 테크
서비스 상태 가시화
배경
- 모니터링, 옵저버빌리티, 트레이싱 등 기술적으로 서비스 상태 가시화는 고도화된 상태
- 고객 관점에서의 서비스 상태는? (장애 발생 시)
- 지금 고객들이 실제로 겪고 있을 불편
- 고객센터에서 설명해야 할 내용
- 정상화 시점
- 고객 경험과 직결되는 이러한 문제 해결 필요
AS-IS 장애 프로세스
- 장애 발생
- 다양한 경로를 통해 장애 상황 감지, 누군가에 의해 장애 등록 기능 직접 호출
- 장애 등록 기능 : 지라 티켓(장애 보고서) 생성, 슬랙 채널 방을 생성해 전사 공지
- 생성된 슬랙 채널방에 담당자 초대, 장애 확인 및 현황 공유
- 이 시점에서 서비스 담당자는 조치 진행
- 고객 문의 발생 시, 고객센터 크루도 슬랙 채널에 조인해 현황 확인 후 응대
- 장애 조치 완료 후, 장애 보고서에 상세 내용 작성 후 포스트모템 진행
기존 프로세스 문제점
- 장애 영향도 파악 및 담당자 확인에 병목 현상 자주 발생
- 게이트웨이성 서비스 담당자들은 해당 게이트웨이를 사용하는 모든 서비스 장애 상황에 불필요하게 호출
- 서비스 담당자는 장애 대응으로 인해 실시간 현황 공유 어려움
- 고객센터 크루들이 고객 응대에 필요한 정보 파악 어려움
- 콜센터 고객 대기 시간 증가, 고객 이탈률 증가
- 장애 조치 내역 및 타임라인 등을 보고서에 작성할 때 많은 리소스 소모
- 급한 상황일 때, 장애를 탐지한 채널에서 바로 커뮤니케이션하는 경우가 자주 있어 전체 내용 확인 어려움
TO-BE 장애 프로세스
- 장애 발생 시
핑크와드(이하 핑와)는 웹훅 수신, 자동으로 장애 등록 프로세스 수행 - 웹훅 정보를 통해 핑와가 담당자 식별 후 초대
- 동시에 핑와 대시보드에서는 관련 서비스들을 장애 상태로 표현
- 장애 조치 관련 정보 입력 폼 제공
- 담당자가 자유롭게 장애 원인 및 영향도, 복구 예상 시각 작성
- 작성된 정보는 슬랙 및 대시보드에서 확인 용이
- 슬랙 채널의 대화 내용을 주기적으로 요약해 대시보드에 제공
- 장애 해소 후, 장애 보고서 및 포스트모템용 문서 자동 생성
- 슬랙 채널의 대화 내용 기반으로 AI가 초안 작성
아키텍처
- Amazon Bedrock 기반 내부 챗봇 (LLM API 제공)
- 내부 생산성 플랫폼 (메타데이터 관리, 애플리케이션 배포 및 이력 관리)
- 그라파나 (메트릭 확인), 오픈서치 (로그 확인) (알림 설정)
핑와 내부 개념
- 서비스
- 대고객 서비스의 큰 분류 (ex. 계좌, 홈, 주문, etc.)
- 고객이 실제 인식, 구분하는 서비스 분류 기준
- 리소스
- 장애 감지 단위
- 리소스 기준 장애 감지 및 알림
- 애플리케이션과 인프라플랫폼으로 구분
- 애플리케이션 : 위캔에서 관리되는 서비스 애플리케이션 단위
- 인프라플랫폼 : 애플리케이션들이 사용하는 인프라 플랫폼 (ex. DB, Redis, Kafka, k8s cluster, etc.)
- 장애
- 내부에서 관리되는 장애 티켓 단위
성과
- 장애 프로세스 67% 단축
- 장애 보고서 작성 시간 80% 감소
- 고객 응대 정보 파악 시간 90% 감소
- 장애 상황의 심리적 안정감 증가