루다, 눈을 뜨다! AI 챗봇 서비스에 이미지 대화 기술 적용시키기.
코드너리 | 2023. 03. 18
컴퓨터 비전
머신러닝
NLP
사용된 기술:
관련 기술 스택이 없습니다 🙄
개요:
본 세션에서는 AI 친구 이루다 2.0에 적용된 포토챗 기술에 대해 이야기하고자 합니다.
우리는 매일 모바일 메신저에서 친구들과 수많은 사진을 주고 받습니다. 사진을 통한 커뮤니케이션은 어느새 우리의 중요한 소통 방식이 되었죠. 우리는 사진을 통해서 친구와 더 깊은 관계를 형성하고 추억을 공유합니다.
이번 이루다 2.0에 적용된 포토챗 베타는 사용자가 보낸 사진에 대해 루다가 적절한 답변을 해주는 멀티모달 대화 기술입니다. 해당 서비스를 출시하기까지 겪었던 연구 과정과 시행착오들에 대해 공유하여 많은 개발자분들이 자연어 처리 기술과 영상 처리 기술을 융합한 멀티모달 서비스를 기획하고 개발하는 데 있어서 도움이 되었으면 합니다.
목차
1. 이미지 코멘팅 태스크
- 이미지 코멘팅 태스크 정의
- 이미지 코멘트 데이터셋
- 이미지 코멘트 레이블링
2. 이미지 코멘팅 모델
- 이미지 코멘팅 모델 설계
- 이미지 코멘팅 모델 개발
- 이미지 코멘팅 모델 평가
3. 포토챗 베타
- 포토챗 기술 적용 후 대화
- 현재 포토챗 베타의 한계
- 향후 연구 방향
4. 생성 기반 포토챗
- 생성 기반 이미지 대화 모델 설계
- 생성 기반 이미지 대화 모델 개발
- 결과 맛보기