반응형
개요
- 누구나 한국어 LLM을 등록하고 다른 모델과 경쟁할 수 있는 공개 플랫폼
- Upstage-NIA가 공동으로 구축하였으며, KT 클라우드에서 인프라 지원
- 한국어 특성과 문화를 반영한 고품질의 데이터를 자체 구축
- 기존 hugging face 리더보드에 ‘상식생성’ 기준을 추가
- Open Ko-LLM Leaderboard - a Hugging Face Space by upstage
평가 데이터셋
- Ko-GPQA (provided by Flitto)
- 평가 능력: 고급 지식 및 추론 능력
- 설명: 대학원 수준의 복잡한 질문에 대한 응답 능력을 평가
- Ko-WinoGrande (provided by Flitto)
- 평가 능력: 상식적 추론 및 모호성 해소
- 설명: 문맥에 따른 대명사 해석 능력을 테스트
- Ko-GSM8K (provided by Flitto)
- 평가 능력: 수학적 문제 해결 능력
- 설명: 다단계 수학 문제 해결 능력을 평가
- Ko-EQ-Bench (provided by Flitto)
- 평가 능력: 감정 지능 및 공감 능력
- 설명: 감정적 상황에 대한 이해와 적절한 반응을 테스트
- Ko-IFEval (provided by Flitto)
- 평가 능력: 가설적 추론 능력
- 설명: "만약 ~라면" 형태의 가설적 상황에 대한 추론 능력을 평가
- KorNAT-Knowledge (provided by SELECTSTAR and KAIST AI)
- 평가 능력: 한국 특정 지식
- 설명: 한국의 문화, 역사, 사회에 대한 지식을 테스트
- KorNAT-Social-Value (provided by SELECTSTAR and KAIST AI)
- 평가 능력: 사회적 가치 판단 능력
- 설명: 한국 사회의 가치관과 윤리적 판단에 대한 이해를 평가
- Ko-Harmlessness (provided by SELECTSTAR and KAIST AI)
- 평가 능력: 안전성 및 윤리성
- 설명: 모델의 유해하지 않은 응답 생성 능력을 테스트
- Ko-Helpfulness (provided by SELECTSTAR and KAIST AI)
- 평가 능력: 유용성 및 협조성
- 설명: 모델이 얼마나 도움이 되고 유용한 응답을 제공하는지 평가
평가 방법
ko-lm-evaluation-harness를 백엔드로 두고 있음
- LLM을 다양한 벤치마크 데이터셋을 활용해 LLM의 성능을 자동 평가할 수 있도록 하는 프레임워크
- 사용하는 모델과 평가에 사용할 작업 (데이터셋) 이름을 입력으로 넣으면 평가 결과를 확인
https://github.com/EleutherAI/lm-evaluation-harness/commit/1f66adc
반응형
'LLM > Evaluation' 카테고리의 다른 글
LLM 리더보드 분석 | Chatbot Arena 리더보드 (2) | 2024.09.22 |
---|---|
LLM 리더보드 분석 | LogicKor 리더보드 (1) | 2024.09.21 |
LLM 리더보드 분석 | 호랑이(Horangi) 한국어 LLM 리더보드 (0) | 2024.09.21 |
LLM 리더보드 분석 | Allganize - RAG 리더보드 (0) | 2024.09.20 |
한국어 LLM 평가 방법 : 벤치마크 데이터셋, LLM, 정량적 지표를 통해 (1) | 2024.09.20 |