
LLM 리더보드 분석 | Chatbot Arena 리더보드
·
LLM/Evaluation
개요사람들의 평가로 다양한 LLM을 상호 비교할 수 있는 리더보드사용자의 동일한 요청에 대해 2개의 모델의 응답을 사용자에게 보여주고 사용자가 어떤 응답이 더 우수한지 평가LLM의 대화 생성 능력 평가할 수 있음현재 multimodal arena도 지원이 돼서 image도 업로드할 수 있음Chat with Open Large Language ModelsIntroducing the Chatbot Guardrails ArenaKo Chatbot Arena Leaderboard - a Hugging Face Space by instructkr > 한국어 버전 리더보드도 있으나 현재 운영 중이지 않은 것 같음평가 데이터셋사용자들이 실제 대화를 통해 모델들을 비교 평가한 결과MT-BenchMMLU 평가 데이터셋은..