logo
logo
이제는 AI가 읽고(Language), 보고(Vision), 생성하는 Large-scale Multimodal의 시대입니다
코드너리  |  2023. 03. 18
컴퓨터 비전
NLP
머신러닝
사용된 기술:
관련 기술 스택이 없습니다 🙄

개요:

국내외적으로 Large-scale Language Model에 이어서 이제는 다양한 Large-scale Multimodal Model들이 나오고 있습니다. 이 세션에서는 Multimodal 관련 태스크를 위한 대규모 데이터셋 구축과정 및 Vision-Language foundation 모델링을 하면서 최종적으로 서비스에 반영되기 까지의 노하우와 팁을 공유합니다. 최대 규모의 한국어 멀티모달 데이터셋을 소개하고, 현재 구축중인 다양한 Vision-Language foundation 모델도 소개합니다.

목차

1. Why Large-scale Multimodal?

  • Vision-Language Foundation Models
  • English Image-Text Dataset

2. Billion-scale Image-Text Korean 데이터 구축

  • 수집 데이터의 종류와 특징
  • 정제 및 전처리 과정

3. Multimodal (Vision-Language) Foundation Modeling

  • 패션 상품 Attribute 검색 Model
  • CoCa (contrastive captioners are image-text foundation models)
  • Modality-agnostic Model

4. Korean Text-to-Image Generation

  • Korean Stable Diffusion

5. Multimodal Docuemt Search (MDS) 서비스 & Future Works

  • 패션 상품 검색
  • 멀티모달 분류기 for MDS
  • 스마트 썸네일
Copyright © 2024. Codenary All Rights Reserved.