logo
logo
NSML: 대규모 HPC 클러스터의 효율적 활용을 위한 Scheduler, Monitoring, Diagnostics
코드너리  |  2023. 03. 18
ML 파이프라인
모니터링
사용된 기술:
관련 기술 스택이 없습니다 🙄

개요:

ML 모델의 크기와 학습 데이터의 규모가 점차 증가함에 따라 분산학습이 가능한 대규모 HPC 클러스터를 구축하는 사례들이 늘어나고 있습니다. 이 세션에서는 분산학습에 최적화된 대규모 HPC 클러스터에 대한 소개와 이를 효율적으로 활용하기 위한 전략에 대해 살펴보면서, HPC 클러스터 효율화 전략의 핵심이 되는 세 가지 컴포넌트인 스케줄링, 모니터링, 분산학습 진단 도구의 개발 과정과 여러 가지 적용 사례를 공유합니다.

목차

1. Introduction

  • NAVER 대규모 분산학습 플랫폼: NSML
  • NSML의 대규모 HPC 클러스터와 효율화 전략

2. Scheduler

  • GPU 점유 환경의 문제점
  • GPU 활용률을 높이기 효율적인 스케줄링 전략
  • NSML 스케줄러 도입기

3. Monitoring

  • 대규모 HPC 클러스터 관측의 배경
  • 모니터링 도구 개발 과정
  • HPC 클러스터 관측하기

4. Diagnostics

  • 분산학습 시 마주하는 엔지니어링 이슈
  • 분산학습 진단 도구 개발 과정
  • 분산학습 엔지니어링 이슈 진단하기
Copyright © 2024. Codenary All Rights Reserved.