반응형
개요
llm-kr-eval, MT-Bench 총 두 가지 방법을 통하여 LLM의 한국어 능력을 평가하기 위한 리더보드
- llm-kr-eval : 질의응답 형식의 언어 이해 평가
- MT-Bench : 멀티 턴 대화에 대한 생성 능력 평가
- W&B의 테이블 기능 활용하여 평가 결과 다양한 시각에서 쉽게 분석 가능
- 기존에 출시된 유명 LLM들을 baseline으로 제공하여 그들과 우리 모델을 비교 가능
- GitHub - wandb/llm-leaderboard at korean
- Horangi 한국어 LLM 리더보드
평가 데이터셋
llm-kr-eval
- 공개된 벤치마크 데이터셋 활용
- 5개의 평가 부문에 맞는 데이터셋 활용
- NLI (Natural Language Inference) : KorNLI(exact), KoBEST_HellaSwag(exact), KoBEST_COPA(exact)
- QA (Question Answering) : KoBEST_WiC(exact), KMMLU(exact)
- RC (Reading Comprehension) : KorSTS(person, spearman), KoBEST_SN(exact)
- EL (Entity Linking) : KLUE-NER(set_f1), KLUE-RE(exact)
- FA (Fundamental Analysis) : Korean-CommonGen(bleu)
- 각 데이터셋의 예시는 Horangi 한국어 LLM 리더보드 > 평가 Task에 대한 설명 에서 확인 가능
MT-Bench
- W&B 측에서 한국어로 번역하여 활용
- 멀티 턴 질의응답을 위한 LLM 벤치마크 테스트 데이터셋
- 8개의 카테고리 (Writing, Roleplay, Extraction, Reasoning, Math, Coding, Knowledge I (STEM), Knowledge II (humanities/social science)) 에 대해 각 10개씩 질문들로 구성되어 있음
- FastChat/fastchat/llm_judge/data/korean_mt_bench at korean · wandb/FastChat
평가 방법
Overall average = (llm-kr-eval + MT-bench/10) / 2
llm-kr-eval
- 5개의 카테고리에 대해서 여러 데이터셋에 대한 정량적 지표 평균하여 제시
- 각 데이터셋에 어떤 지표가 사용되는지는 위의 ‘평가 데이터셋>llm-kr-eval>괄호’를 보면 알 수 있음
- Exact match : llm이 생성한 답변과 정답이 정확하게 일치하는지 확인
- Pearson : 두 변수 간의 선형적인 관계 강도를 측정, KorSTS 데이터셋에서는 LLM이 예측한 두 문장 사이의 유사도와 실제 유사도 간의 선형적 관계를 측정
- Spearson : 두 변수 간의 단조적인 관계 강도를 측정, KorSTS 데이터셋에서는 LLM이 예측한 두 문장 사이의 유사도와 실제 유사도 간의 단조적 관계를 측정
- set F1 Score : 모델이 얼마나 정확하게 엔티티를 링크하는지와 얼마나 많은 엔티티를 찾아내는지의 균형을 평가
- BLEU : LLM이 생성한 텍스트와 참조 텍스트 간의 유사성을 측정하여 문맥에 맞게 문장을 생성하는지를 평가
- 기존에는 프롬프트에 예시 데이터를 추가하여 퓨삿 성능을 측정했었는데, 제로샷 추론을 기본 평가 방식으로 사용해 좀 더 모델의 본질적인 성능을 측정하는 데에 초점을 둠
MT-Bench
- 8개의 카테고리에 대해서 LLM 평가 모델이 10점 만점 점수를 생성
반응형
'LLM > Evaluation' 카테고리의 다른 글
LLM 리더보드 분석 | Chatbot Arena 리더보드 (2) | 2024.09.22 |
---|---|
LLM 리더보드 분석 | Open Ko-LLM 리더보드 (1) | 2024.09.22 |
LLM 리더보드 분석 | LogicKor 리더보드 (1) | 2024.09.21 |
LLM 리더보드 분석 | Allganize - RAG 리더보드 (0) | 2024.09.20 |
한국어 LLM 평가 방법 : 벤치마크 데이터셋, LLM, 정량적 지표를 통해 (1) | 2024.09.20 |