
LLM 리더보드 분석 | 호랑이(Horangi) 한국어 LLM 리더보드
·
LLM/Evaluation
개요llm-kr-eval, MT-Bench 총 두 가지 방법을 통하여 LLM의 한국어 능력을 평가하기 위한 리더보드llm-kr-eval : 질의응답 형식의 언어 이해 평가MT-Bench : 멀티 턴 대화에 대한 생성 능력 평가W&B의 테이블 기능 활용하여 평가 결과 다양한 시각에서 쉽게 분석 가능기존에 출시된 유명 LLM들을 baseline으로 제공하여 그들과 우리 모델을 비교 가능GitHub - wandb/llm-leaderboard at koreanHorangi 한국어 LLM 리더보드평가 데이터셋llm-kr-eval공개된 벤치마크 데이터셋 활용5개의 평가 부문에 맞는 데이터셋 활용NLI (Natural Language Inference) : KorNLI(exact), KoBEST_HellaSwag(e..