반응형
개요
사람들의 평가로 다양한 LLM을 상호 비교할 수 있는 리더보드
- 사용자의 동일한 요청에 대해 2개의 모델의 응답을 사용자에게 보여주고
사용자가 어떤 응답이 더 우수한지 평가 - LLM의 대화 생성 능력 평가할 수 있음
- 현재 multimodal arena도 지원이 돼서 image도 업로드할 수 있음
- Chat with Open Large Language Models
- Introducing the Chatbot Guardrails Arena
- Ko Chatbot Arena Leaderboard - a Hugging Face Space by instructkr > 한국어 버전 리더보드도 있으나 현재 운영 중이지 않은 것 같음
평가 데이터셋
- 사용자들이 실제 대화를 통해 모델들을 비교 평가한 결과
- MT-Bench
- MMLU
평가 데이터셋은 아니지만 해당 리더보드를 운영하면서 수집한 사람의 답변 선호도 데이터셋 존재
Chatbot Arena 데이터셋
- Chatbot Arena 리더보드의 결과를 수집하여 데이터셋 형식으로 만든 데이터셋
- 해당 데이터셋과 MT-Bench로 LLM 평가 모델을 학습하는 방법도 있음 [Paper] Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
- lmsys/mt_bench_human_judgments · Datasets at Hugging Face > 영어 버전, MT-Bench
- lmsys/lmsys-arena-human-preference-55k · Datasets at Hugging Face > 다국어 버전
- lmsys/lmsys-chat-1m · Datasets at Hugging Face > 다국어 버전
- lmsys/chatbot_arena_conversations · Datasets at Hugging Face > 다국어 버전
- mncai/ko-chatbot-arena · Datasets at Hugging Face > 한국어 버전, 기존 데이터셋을 번역한 것이 아닌 한국어 리더보드를 운영하면서 수집한 데이터셋
평가 방법
- Chatbot Arena Elo : 익명 투표를 기반으로 승자가 더 많은 점수를 얻고 패자는 점수를 잃는 식으로 두 모델 간의 상대적인 점수 결정
- MT-Bench 점수 : MT-Bench 질문에 대한 모델의 응답을 GPT-4가 평가하여 점수를 매김
- MMLU 점수 : 5-shot으로 샘플링, MMLU 벤치마크 테스트 결과 반영
반응형
'LLM > Evaluation' 카테고리의 다른 글
LLM 리더보드 분석 | Open Ko-LLM 리더보드 (1) | 2024.09.22 |
---|---|
LLM 리더보드 분석 | LogicKor 리더보드 (1) | 2024.09.21 |
LLM 리더보드 분석 | 호랑이(Horangi) 한국어 LLM 리더보드 (0) | 2024.09.21 |
LLM 리더보드 분석 | Allganize - RAG 리더보드 (0) | 2024.09.20 |
한국어 LLM 평가 방법 : 벤치마크 데이터셋, LLM, 정량적 지표를 통해 (1) | 2024.09.20 |