logo
logo
이해, 생성, 효율: 세 마리 토끼 다 잡는 Seq2Seq HyperCLOVA
코드너리  |  2023. 03. 18
NLP
머신러닝
사용된 기술:
관련 기술 스택이 없습니다 🙄

개요:

언어모델계에서 뛰어난 성능과 효율성을 띈 Sequence-to-Sequence (Seq2Seq) 구조의 한국어 최강 모델 CT5 학습 성공기! 최근 Seq2Seq에 대한 관심이 높아지면서 가려진 부분 텍스트를 복구하는 span masking 학습 형태의 효용에 대해 기대가 높이지고 있습니다.

본 세션에서는 텍스트를 인코딩하고 디코딩하는 Encoder-Decoder 언어모델의 특징과 최신 동향을 살펴보고, HyperCLOVA 경험을 바탕으로 국내 최대 규모의 Seq2Seq 한국어 모델 학습에 성공한 경험기를 설명합니다. 또한, 막강한 한국어 Seq2Seq 모델을 통해 가능해지는 문서 요약, 대화 채우기 (dialog in-filling), 대화에 특화된 foundation model 등 다양한 기능과 활용처를 소개하고, 마지막으로 최근 효율성이 강조되는 풍조 속에 Seq2Seq기반 언어모델이 왜 탁월한 선택이 될 수 있는지, Seq2Seq의 포지션에 대해 설명하고자 합니다.

목차

1. Seq2Seq 언어모델 소개 (유강민)

  • GPT 언어모델의 발전
  • Seq2Seq이 GPT와 다른 점
  • Seq2Seq을 선택해야하는 이유
  • 한국어 Seq2Seq과 HyperCLOVA

2. CT5: 현존 가장 강력한 한국어 Seq2Seq 언어모델 (박동주)

  • CT5 구조
  • 학습 세팅
  • 벤치마크
  • 연산자원 효율성

4. DialogCT5: Domain Adaptation으로 데이터 효율 UP! (가순원)

  • Why DialogCT5?
  • 학습 세팅
  • 벤치마크
  • 정성적 평가 및 Discussion

5. 결론

Copyright © 2024. Codenary All Rights Reserved.