logo
logo
값비싼 Diffusion model을 받드는 저비용 MLOps
코드너리  |  2023. 03. 18
성능 개선
ML 파이프라인
머신러닝
사용된 기술:
관련 기술 스택이 없습니다 🙄

개요:

수많은 아티스트와 창작자, 나아가 프로그래머까지 위협하고 있는 Generative AI의 중심에는 Diffusion model라고 부르는 새로운 형태의 AI 모델이 있습니다. 하지만 최소 억 단위의 학습 비용을 필요로 하는 Diffusion model을 소규모 팀이 어떻게 수정해 새로운 유저 경험을 만들어 왔는지 공유하며, 모바일 컨슈머 제품에 사용하기 위해 준비했던 MLOps의 과정을 설명합니다.

목차

1. Diffusion model이 탄생하기까지

  • Diffusion model 소개
  • GAN, Auto Regressive 모델들과의 비교
  • 언제 GAN과 Diffusion 모델을 써야 할까?

2. 비싼 Diffusion model을 저비용으로 customize하기 위해선

  • GAN은 할 수 있지만 Diffusion 모델은 못하는 것: Interpolation
  • 적은 레퍼런스 사진을 통해 원하는 피사체의 사진을 만드는 법: Text inversion
  • 학습 없이 (traning-free) Attention을 수정해 글자와 가이드 그림으로 수정하는 방법

3. Generative AI MLOps: 1초 이하의 latency를 유지하기 위한

  • 가난한 자의 선택 Bare metal cluster
  • Kubernetes와 NVIDIA Triton / Torchserve로 inference architecture 만들기
  • Scheduler와 tokenizer, triton과 latent variable caching으로 latency 줄이기
  • Dynamic batching으로 throughput 미리 테스트하고 scalability 측정하기
Copyright © 2024. Codenary All Rights Reserved.