LLM 리더보드 분석 | Chatbot Arena 리더보드
·
LLM/Evaluation
개요사람들의 평가로 다양한 LLM을 상호 비교할 수 있는 리더보드사용자의 동일한 요청에 대해 2개의 모델의 응답을 사용자에게 보여주고 사용자가 어떤 응답이 더 우수한지 평가LLM의 대화 생성 능력 평가할 수 있음현재 multimodal arena도 지원이 돼서 image도 업로드할 수 있음Chat with Open Large Language ModelsIntroducing the Chatbot Guardrails ArenaKo Chatbot Arena Leaderboard - a Hugging Face Space by instructkr > 한국어 버전 리더보드도 있으나 현재 운영 중이지 않은 것 같음평가 데이터셋사용자들이 실제 대화를 통해 모델들을 비교 평가한 결과MT-BenchMMLU 평가 데이터셋은..
LLM 리더보드 분석 | Open Ko-LLM 리더보드
·
LLM/Evaluation
개요누구나 한국어 LLM을 등록하고 다른 모델과 경쟁할 수 있는 공개 플랫폼Upstage-NIA가 공동으로 구축하였으며, KT 클라우드에서 인프라 지원한국어 특성과 문화를 반영한 고품질의 데이터를 자체 구축기존 hugging face 리더보드에 ‘상식생성’ 기준을 추가Open Ko-LLM Leaderboard - a Hugging Face Space by upstage  평가 데이터셋Ko-GPQA (provided by Flitto)평가 능력: 고급 지식 및 추론 능력설명: 대학원 수준의 복잡한 질문에 대한 응답 능력을 평가Ko-WinoGrande (provided by Flitto)평가 능력: 상식적 추론 및 모호성 해소설명: 문맥에 따른 대명사 해석 능력을 테스트Ko-GSM8K (provided by..
LLM 리더보드 분석 | LogicKor 리더보드
·
LLM/Evaluation
개요 한국어 언어모델 다분야 사고력 벤치마크“한국어 추론, 수학, 글쓰기, 코딩, 이해, 문법, 싱글턴, 멀티턴”의 다양한 요소를 종합적으로 측정GPT-4를 LLM 평가자로 두어 좀 더 챗봇에 적합한, 실제 성능과 유사한 LLM 성능 평가 가능총점 10점 만점 체계를 사용하여 각 요소별로 세부 점수를 제공함리더보드에 있는 모델 클릭 시 모델 정보와 샘플링 파라미터 정보 제공모델에 입력으로 들어간 질문과 답변, 답변에 대한 평가, 해당 샘플에 대한 평가 점수를 보여줌LogicKor Leaderboard - a Hugging Face Space by instructkrGitHub - instructkr/LogicKor: 한국어 언어모델 다분야 사고력 벤치마크평가 데이터셋 MT-Bench를 벤치마킹하여 6개의..
LLM 리더보드 분석 | 호랑이(Horangi) 한국어 LLM 리더보드
·
LLM/Evaluation
개요llm-kr-eval, MT-Bench 총 두 가지 방법을 통하여 LLM의 한국어 능력을 평가하기 위한 리더보드llm-kr-eval : 질의응답 형식의 언어 이해 평가MT-Bench : 멀티 턴 대화에 대한 생성 능력 평가W&B의 테이블 기능 활용하여 평가 결과 다양한 시각에서 쉽게 분석 가능기존에 출시된 유명 LLM들을 baseline으로 제공하여 그들과 우리 모델을 비교 가능GitHub - wandb/llm-leaderboard at koreanHorangi 한국어 LLM 리더보드평가 데이터셋llm-kr-eval공개된 벤치마크 데이터셋 활용5개의 평가 부문에 맞는 데이터셋 활용NLI (Natural Language Inference) : KorNLI(exact), KoBEST_HellaSwag(e..
LLM 리더보드 분석 | Allganize - RAG 리더보드
·
LLM/Evaluation
개요5개의 도메인(금융, 공공, 의료, 법률, 커머스)에 대해서서 한국어 RAG 성능 평가 리더보드RAG 도입을 원하는 수많은 기업들을 대상으로 함자사에 맞는 도메인, 문서 타입, 질문 형태를 반영특히 기업 문서를 잘 반영할 수 있도록 문서의 테이블, 이미지에 대한 질문을 하여 LLM 평가Parser, Retrieval, Generation 3가지 파트를 전체적으로 평가allganize/RAG-Evaluation-Dataset-KO · Datasets at Hugging FaceRAG 리더보드 공개-금융, 공공, 의료, 법률, 커머스 한국어 RAG 성능 평가 RAG 리더보드 공개-금융, 공공, 의료, 법률, 커머스 한국어 RAG 성능 평가올거나이즈가 RAG 리더보드를 공개했습니다. 금융, 공공, 의료, ..
한국어 LLM 평가 방법 : 벤치마크 데이터셋, LLM, 정량적 지표를 통해
·
LLM/Evaluation
벤치마크 데이터셋을 활용한 평가 벤치마크 데이터셋다양한 모델의 성능을 비교하기 위해 공통으로 사용되는 데이터셋대표적으로 많이 사용되는 벤치마크 데이터셋 BIG 6에는 ARC, HellaSwag, MMLU, TruthfulQA, Winogrande, GSM8k가 있음ARC, HellaSwag, MMLU, TruthfulQA는 한국어로 번역되어 업스테이지 리더보드에 사용되기도 함 데이터셋평가지표주요내용ARC추론능력사지선다형 과학 문제HellaSwag상식능력미완성된 구절을 완성MMLU언어이해력57개의 다양한 분야에 대한 사지선다형 문제TruthfulQA환각방지능력흔하게 오해하기 좋은 상식들 질문 → 객관식 또는 서술형으로 답함Winogrande문맥 기반 추론거의 동일한 문장 쌍의 형태 구별GSM8k수학적 추론..