"LMSYS Org, 대화형 AI 모델 비교 플랫폼 '챗봇 아레나' 및 새로운 벤치마크 'MT-Bench' 공개"

공유된 기사

Large Model Systems Organization(LMSYS Org)은 최근 대형 언어 모델(LLMs) 비교 플랫폼인 'Chatbot Arena'를 출시했습니다. 이 플랫폼에서 사용자들은 챗봇 쌍 중에서 더 나은 응답을 선택할 수 있습니다. 또한, LMSYS는 Arena에서의 대화를 포함하는 데이터셋과 MT•Bench 벤치마크에서 LLMs를 평가한 결과에 대한 인간 주석 데이터셋을 공개했습니다. 이들은 GPT-4와 LLaMA를 포함한 여러 오픈 소스 및 클로즈 소스 LLMs의 평가를 위해 Chatbot Arena를 개발했습니다.

LMSYS Org는 이전에 Meta의 LLaMA 모델을 세밀하게 조정한 Vicuna LLM을 출시했습니다. Vicuna 평가를 위해 연구자들은 GPT•4를 출력의 판사로 사용하였고, Vicuna가 ChatGPT와 Bard의 "90% 이상의 품질"을 달성했다고 주장했습니다. 몇 달 후, LMSYS Org는 모델 평가를 대중에게 맡기려는 시도로 ChatBot Arena를 발표했습니다. 이 최근의 움직임에서 LMSYS Org는 33K의 Arena 챗봇 대화 데이터셋을 공개했습니다.

Arena를 몇 달 동안 운영한 후, 연구자들은 수학, 추론, STEM 지식 등 8개의 사용자 프롬프트 카테고리를 식별했습니다. 그들은 각 카테고리에 대해 10개의 멀티턴 질문을 만들어, Arena에 대한 "품질이 통제된 보완"인 MT•Bench를 만들었습니다. 그들은 다시 GPT-4를 사용하여 벤치마크 프롬프트에 대한 챗봇의 응답을 평가하였고, GPT-4 판사가 인간 판사와 80% 이상의 시간 동안 일치하는 것을 발견했습니다. 이제 LMSYS Org는 6개의 다른 모델에 의해 생성된 응답에 대한 3.3k의 "전문가 수준의 쌍으로 이루어진 인간 선호도" 데이터셋을 공개했습니다.

최신 기술 뉴스 더 보기