이제는 AI가 읽고(Language), 보고(Vision), 생성하는 Large-scale Multimodal의 시대입니다 | 코드너리

디스커버리

컨퍼런스 일정

기술 아키텍처

기술 블로그

이제는 AI가 읽고(Language), 보고(Vision), 생성하는 Large-scale Multimodal의 시대입니다

코드너리 | 2023. 03. 18

컴퓨터 비전

NLP

머신러닝

사용된 기술:

관련 기술 스택이 없습니다 🙄

개요:

국내외적으로 Large-scale Language Model에 이어서 이제는 다양한 Large-scale Multimodal Model들이 나오고 있습니다. 이 세션에서는 Multimodal 관련 태스크를 위한 대규모 데이터셋 구축과정 및 Vision-Language foundation 모델링을 하면서 최종적으로 서비스에 반영되기 까지의 노하우와 팁을 공유합니다. 최대 규모의 한국어 멀티모달 데이터셋을 소개하고, 현재 구축중인 다양한 Vision-Language foundation 모델도 소개합니다.

목차

1. Why Large-scale Multimodal?

Vision-Language Foundation Models
English Image-Text Dataset

2. Billion-scale Image-Text Korean 데이터 구축

수집 데이터의 종류와 특징
정제 및 전처리 과정

3. Multimodal (Vision-Language) Foundation Modeling

패션 상품 Attribute 검색 Model
CoCa (contrastive captioners are image-text foundation models)
Modality-agnostic Model

4. Korean Text-to-Image Generation

Korean Stable Diffusion

5. Multimodal Docuemt Search (MDS) 서비스 & Future Works

패션 상품 검색
멀티모달 분류기 for MDS
스마트 썸네일

네이버

Clova Face Kit: 10분 안에 누구나 적용하는 얼굴인식

* 관련 기술 스택이 없습니다 🙄

ML 파이프라인

쿠팡

대용량 처리를 위한 백엔드 아키텍처

* 관련 기술 스택이 없습니다 🙄

실시간 스트리밍

대용량 처리

라인

쇼핑 플랫폼 백엔드 파이프라인

* 관련 기술 스택이 없습니다 🙄

Copyright © 2025. Codenary All Rights Reserved.

서비스 이용약관 개인정보 처리방침