LLM 리더보드 분석 | Chatbot Arena 리더보드

개요

사람들의 평가로 다양한 LLM을 상호 비교할 수 있는 리더보드

사용자의 동일한 요청에 대해 2개의 모델의 응답을 사용자에게 보여주고
사용자가 어떤 응답이 더 우수한지 평가
LLM의 대화 생성 능력 평가할 수 있음
현재 multimodal arena도 지원이 돼서 image도 업로드할 수 있음
Chat with Open Large Language Models
Introducing the Chatbot Guardrails Arena
Ko Chatbot Arena Leaderboard - a Hugging Face Space by instructkr > 한국어 버전 리더보드도 있으나 현재 운영 중이지 않은 것 같음

평가 데이터셋은 아니지만 해당 리더보드를 운영하면서 수집한 사람의 답변 선호도 데이터셋 존재

Chatbot Arena 데이터셋

Chatbot Arena 리더보드의 결과를 수집하여 데이터셋 형식으로 만든 데이터셋
해당 데이터셋과 MT-Bench로 LLM 평가 모델을 학습하는 방법도 있음 [Paper] Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
lmsys/mt_bench_human_judgments · Datasets at Hugging Face > 영어 버전, MT-Bench
lmsys/lmsys-arena-human-preference-55k · Datasets at Hugging Face > 다국어 버전
lmsys/lmsys-chat-1m · Datasets at Hugging Face > 다국어 버전
lmsys/chatbot_arena_conversations · Datasets at Hugging Face > 다국어 버전
mncai/ko-chatbot-arena · Datasets at Hugging Face > 한국어 버전, 기존 데이터셋을 번역한 것이 아닌 한국어 리더보드를 운영하면서 수집한 데이터셋

Chatbot Arena Elo : 익명 투표를 기반으로 승자가 더 많은 점수를 얻고 패자는 점수를 잃는 식으로 두 모델 간의 상대적인 점수 결정
MT-Bench 점수 : MT-Bench 질문에 대한 모델의 응답을 GPT-4가 평가하여 점수를 매김
MMLU 점수 : 5-shot으로 샘플링, MMLU 벤치마크 테스트 결과 반영

LLM 리더보드 분석 \| Open Ko-LLM 리더보드 (1)	2024.09.22
LLM 리더보드 분석 \| LogicKor 리더보드 (1)	2024.09.21
LLM 리더보드 분석 \| 호랑이(Horangi) 한국어 LLM 리더보드 (0)	2024.09.21
LLM 리더보드 분석 \| Allganize - RAG 리더보드 (0)	2024.09.20
한국어 LLM 평가 방법 : 벤치마크 데이터셋, LLM, 정량적 지표를 통해 (1)	2024.09.20