logo
logo
AiSuite: 안정적으로 멀티 테넌트 AI 플랫폼 제공하기
코드너리  |  2023. 03. 18
머신러닝
성능 개선
모니터링
ML 파이프라인
사용된 기술:
pytorch-image
istio-image
envoy-image
kubernetes-image

개요:

네이버에서 사내 개발자 및 연구자들이 MLOps를 쉽게 실현할 수 있도록 Kubeflow 기반의 멀티 테넌트 AI 플랫폼인 AiSuite을 제공하고 있습니다. AiSuite의 규모가 커짐에 따라 모델 서빙에 중요한 역할을 담당하는 Istio에 부하가 생기고 전체 클러스터에 영향을 주게 되었습니다. 모니터링 시스템 또한 클러스터의 크기가 증가함에 따라 여러 문제들에 직면하게 되었습니다.

이 세션에서는 AiSuite을 운영하면서 겪은 문제점들과 해결 방안을 공유드립니다. 멀티 테넌트 환경에서 Istio control plane 최적화 방법과, 모니터링 지표 튜닝 방법, Prometheus의 구조적 한계 극복을 위한 VictoriaMetrics 도입에 관련된 내용을 다룹니다. 마지막으로 더욱 안정적인 서빙 환경을 위한 AiSuite의 향후 계획을 알려드립니다.

목차

1. AiSuite: Kubeflow 기반의 멀티 테넌트 AI 플랫폼 in NAVER

  • AiSuite 개요와 구조

2. 멀티 테넌트 모델 서빙 안정적으로 제공하기: Istio 최적화

  • Istio 작동 방식 이해하기
  • Istio in AiSuite Model Serving
  • 멀티 테넌트 서빙 환경에서 Istio 사용 시 발생할 수 있는 문제들과 해결방안

3. 모델 서빙에 대한 모니터링 안정적으로 제공하기: 모니터링 시스템 개선

  • 멀티 테넌트 환경에서의 Prometheus 모니터링 시스템
  • Prometheus 과부하와 문제 해결을 위한 노력
  • VictoriaMetrics 도입과 운영상의 이점

4. 향후 계획

Copyright © 2025. Codenary All Rights Reserved.