1통의 재난 문자로 시작한 SRE 도전기 - 40배 이상 트래픽도 막아라! | 코드너리

디스커버리

컨퍼런스 일정

기술 아키텍처

기술 블로그

1통의 재난 문자로 시작한 SRE 도전기 - 40배 이상 트래픽도 막아라!

코드너리 | 2021. 11. 17

SRE

모니터링

장애 대응

사용된 기술:

https://tv.naver.com/v/23652569

목차

1. 들어가며

서비스를 운영하는 개발자에게 사이트 신뢰성 엔지니어링(Site Reliability Engineering)의 의미는?
네이버 UGC 서비스가 SRE를 통해 서비스 품질을 높였던 경험 공유

2. Accident

퀴즈쇼/재난 문자는 왜 장애를 유발했나?
SRE 관점에서 문제점/개선 포인트 도출

3. SRE - Monitoring

기존 서비스 모니터링의 한계 - 측정할 수 없다면 개선할 수 없다
SLI/SLO 정의 및 SLI Metric 수집하기 - SRE의 빵과 버터 만들기
모니터링 대시보드 - 모든 것을 측정하고 실시간으로 인사이트를 얻기

4. SRE - Availability, Traffic Management

서비스 가용성 확대를 위한 노력 - 통찰을 통해 개선 전략을 수립하다
주요 트래픽 제어 기술

5. SRE - Incident Response

Incident Response의 의미 - 신뢰성을 높게 유지하는 방법
장애대응체계
알람 고도화 - 즉각적인 이슈 대응부터, 장기적인 대응까지
배포 고도화 - 기민한 배포를 통한 빠른 회복
Slack 기반의 ChatOps 통합 환경 - 가시성 확보 및 빠른 장애 대응

6. 마무리 - 신뢰성 있는 서비스 만들기 위한 추가적인 노력들

테스트 강화 - 선제적 장애 예방
마무리 - SRE는 서비스의 신뢰성을 어떻게 높이는가

라인

쇼핑 플랫폼 백엔드 파이프라인

* 관련 기술 스택이 없습니다 🙄

네이버

네이버 통합 모니터링 대시보드

* 관련 기술 스택이 없습니다 🙄

네이버

LiveOps : 네이버앱의 실시간 운영과 크래시 핸들링 솔루션

* 관련 기술 스택이 없습니다 🙄

Copyright © 2024. Codenary All Rights Reserved.

서비스 이용약관 개인정보 처리방침