LLM 리더보드 분석 | Open Ko-LLM 리더보드 — from soyoon import DeepLearning

개요

누구나 한국어 LLM을 등록하고 다른 모델과 경쟁할 수 있는 공개 플랫폼
Upstage-NIA가 공동으로 구축하였으며, KT 클라우드에서 인프라 지원
한국어 특성과 문화를 반영한 고품질의 데이터를 자체 구축
기존 hugging face 리더보드에 ‘상식생성’ 기준을 추가
Open Ko-LLM Leaderboard - a Hugging Face Space by upstage

평가 데이터셋

Ko-GPQA (provided by Flitto)
- 평가 능력: 고급 지식 및 추론 능력
- 설명: 대학원 수준의 복잡한 질문에 대한 응답 능력을 평가
Ko-WinoGrande (provided by Flitto)
- 평가 능력: 상식적 추론 및 모호성 해소
- 설명: 문맥에 따른 대명사 해석 능력을 테스트
Ko-GSM8K (provided by Flitto)
- 평가 능력: 수학적 문제 해결 능력
- 설명: 다단계 수학 문제 해결 능력을 평가
Ko-EQ-Bench (provided by Flitto)
- 평가 능력: 감정 지능 및 공감 능력
- 설명: 감정적 상황에 대한 이해와 적절한 반응을 테스트
Ko-IFEval (provided by Flitto)
- 평가 능력: 가설적 추론 능력
- 설명: "만약 ~라면" 형태의 가설적 상황에 대한 추론 능력을 평가
KorNAT-Knowledge (provided by SELECTSTAR and KAIST AI)
- 평가 능력: 한국 특정 지식
- 설명: 한국의 문화, 역사, 사회에 대한 지식을 테스트
KorNAT-Social-Value (provided by SELECTSTAR and KAIST AI)
- 평가 능력: 사회적 가치 판단 능력
- 설명: 한국 사회의 가치관과 윤리적 판단에 대한 이해를 평가
Ko-Harmlessness (provided by SELECTSTAR and KAIST AI)
- 평가 능력: 안전성 및 윤리성
- 설명: 모델의 유해하지 않은 응답 생성 능력을 테스트
Ko-Helpfulness (provided by SELECTSTAR and KAIST AI)
- 평가 능력: 유용성 및 협조성
- 설명: 모델이 얼마나 도움이 되고 유용한 응답을 제공하는지 평가

평가 방법

ko-lm-evaluation-harness를 백엔드로 두고 있음

LLM을 다양한 벤치마크 데이터셋을 활용해 LLM의 성능을 자동 평가할 수 있도록 하는 프레임워크
사용하는 모델과 평가에 사용할 작업 (데이터셋) 이름을 입력으로 넣으면 평가 결과를 확인

https://github.com/EleutherAI/lm-evaluation-harness/commit/1f66adc

'LLM > Evaluation' 카테고리의 다른 글

LLM 리더보드 분석 \| Chatbot Arena 리더보드 (2)	2024.09.22
LLM 리더보드 분석 \| LogicKor 리더보드 (1)	2024.09.21
LLM 리더보드 분석 \| 호랑이(Horangi) 한국어 LLM 리더보드 (0)	2024.09.21
LLM 리더보드 분석 \| Allganize - RAG 리더보드 (0)	2024.09.20
한국어 LLM 평가 방법 : 벤치마크 데이터셋, LLM, 정량적 지표를 통해 (1)	2024.09.20

개요

평가 데이터셋

평가 방법

'LLM > Evaluation' 카테고리의 다른 글

티스토리툴바