이제는 AI가 읽고(Language), 보고(Vision), 생성하는 Large-scale Multimodal의 시대입니다
코드너리 | 2023. 03. 18
컴퓨터 비전
NLP
머신러닝
사용된 기술:
관련 기술 스택이 없습니다 🙄
개요:
국내외적으로 Large-scale Language Model에 이어서 이제는 다양한 Large-scale Multimodal Model들이 나오고 있습니다. 이 세션에서는 Multimodal 관련 태스크를 위한 대규모 데이터셋 구축과정 및 Vision-Language foundation 모델링을 하면서 최종적으로 서비스에 반영되기 까지의 노하우와 팁을 공유합니다. 최대 규모의 한국어 멀티모달 데이터셋을 소개하고, 현재 구축중인 다양한 Vision-Language foundation 모델도 소개합니다.
목차
1. Why Large-scale Multimodal?
- Vision-Language Foundation Models
- English Image-Text Dataset
2. Billion-scale Image-Text Korean 데이터 구축
- 수집 데이터의 종류와 특징
- 정제 및 전처리 과정
3. Multimodal (Vision-Language) Foundation Modeling
- 패션 상품 Attribute 검색 Model
- CoCa (contrastive captioners are image-text foundation models)
- Modality-agnostic Model
4. Korean Text-to-Image Generation
- Korean Stable Diffusion
5. Multimodal Docuemt Search (MDS) 서비스 & Future Works
- 패션 상품 검색
- 멀티모달 분류기 for MDS
- 스마트 썸네일