logo
logo
1통의 재난 문자로 시작한 SRE 도전기 - 40배 이상 트래픽도 막아라!
코드너리  |  2021. 11. 17
SRE
모니터링
장애 대응
사용된 기술:
grafana-image
slack-image
kibana-image
elasticsearch-image
https://tv.naver.com/v/23652569

목차

1. 들어가며

  • 서비스를 운영하는 개발자에게 사이트 신뢰성 엔지니어링(Site Reliability Engineering)의 의미는?
  • 네이버 UGC 서비스가 SRE를 통해 서비스 품질을 높였던 경험 공유

2. Accident

  • 퀴즈쇼/재난 문자는 왜 장애를 유발했나?
  • SRE 관점에서 문제점/개선 포인트 도출

3. SRE - Monitoring

  • 기존 서비스 모니터링의 한계 - 측정할 수 없다면 개선할 수 없다
  • SLI/SLO 정의 및 SLI Metric 수집하기 - SRE의 빵과 버터 만들기
  • 모니터링 대시보드 - 모든 것을 측정하고 실시간으로 인사이트를 얻기

4. SRE - Availability, Traffic Management

  • 서비스 가용성 확대를 위한 노력 - 통찰을 통해 개선 전략을 수립하다
  • 주요 트래픽 제어 기술

5. SRE - Incident Response

  • Incident Response의 의미 - 신뢰성을 높게 유지하는 방법
  • 장애대응체계
  • 알람 고도화 - 즉각적인 이슈 대응부터, 장기적인 대응까지
  • 배포 고도화 - 기민한 배포를 통한 빠른 회복
  • Slack 기반의 ChatOps 통합 환경 - 가시성 확보 및 빠른 장애 대응

6. 마무리 - 신뢰성 있는 서비스 만들기 위한 추가적인 노력들

  • 테스트 강화 - 선제적 장애 예방
  • 마무리 - SRE는 서비스의 신뢰성을 어떻게 높이는가
Copyright © 2024. Codenary All Rights Reserved.