NSML: 대규모 HPC 클러스터의 효율적 활용을 위한 Scheduler, Monitoring, Diagnostics | 코드너리

디스커버리

컨퍼런스 일정

기술 아키텍처

기술 블로그

NSML: 대규모 HPC 클러스터의 효율적 활용을 위한 Scheduler, Monitoring, Diagnostics

코드너리 | 2023. 03. 18

ML 파이프라인

모니터링

사용된 기술:

관련 기술 스택이 없습니다 🙄

개요:

ML 모델의 크기와 학습 데이터의 규모가 점차 증가함에 따라 분산학습이 가능한 대규모 HPC 클러스터를 구축하는 사례들이 늘어나고 있습니다. 이 세션에서는 분산학습에 최적화된 대규모 HPC 클러스터에 대한 소개와 이를 효율적으로 활용하기 위한 전략에 대해 살펴보면서, HPC 클러스터 효율화 전략의 핵심이 되는 세 가지 컴포넌트인 스케줄링, 모니터링, 분산학습 진단 도구의 개발 과정과 여러 가지 적용 사례를 공유합니다.

목차

1. Introduction

NAVER 대규모 분산학습 플랫폼: NSML
NSML의 대규모 HPC 클러스터와 효율화 전략

2. Scheduler

GPU 점유 환경의 문제점
GPU 활용률을 높이기 효율적인 스케줄링 전략
NSML 스케줄러 도입기

3. Monitoring

대규모 HPC 클러스터 관측의 배경
모니터링 도구 개발 과정
HPC 클러스터 관측하기

4. Diagnostics

분산학습 시 마주하는 엔지니어링 이슈
분산학습 진단 도구 개발 과정
분산학습 엔지니어링 이슈 진단하기

네이버

AiSuite: 안정적으로 멀티 테넌트 AI 플랫폼 제공하기

* 관련 기술 스택이 없습니다 🙄

ML 파이프라인

쿠팡

대용량 처리를 위한 백엔드 아키텍처

* 관련 기술 스택이 없습니다 🙄

실시간 스트리밍

대용량 처리

네이버플레이스

네이버 플레이스 ML 파이프라인

* 관련 기술 스택이 없습니다 🙄

데이터 인프라

데이터 파이프라인

ML 파이프라인

Copyright © 2024. Codenary All Rights Reserved.

서비스 이용약관 개인정보 처리방침