반응형
개요
한국어 언어모델 다분야 사고력 벤치마크
- “한국어 추론, 수학, 글쓰기, 코딩, 이해, 문법, 싱글턴, 멀티턴”의 다양한 요소를 종합적으로 측정
- GPT-4를 LLM 평가자로 두어 좀 더 챗봇에 적합한, 실제 성능과 유사한 LLM 성능 평가 가능
- 총점 10점 만점 체계를 사용하여 각 요소별로 세부 점수를 제공함
- 리더보드에 있는 모델 클릭 시 모델 정보와 샘플링 파라미터 정보 제공
- 모델에 입력으로 들어간 질문과 답변, 답변에 대한 평가, 해당 샘플에 대한 평가 점수를 보여줌
- LogicKor Leaderboard - a Hugging Face Space by instructkr
- GitHub - instructkr/LogicKor: 한국어 언어모델 다분야 사고력 벤치마크
평가 데이터셋
MT-Bench를 벤치마킹하여 6개의 요소에 대한 질문 7개씩 구성한 데이터셋을 만든 것 같음
LogicKor/questions.jsonl at main · instructkr/LogicKor
평가 방법
GPT-4를 LLM 평가자로 두는 방법
- 더 자세하게 말해보자면 평가 대상 LLM이 MT-Bench의 질문 세트를 입력받아 답변 생성
→ 생성된 답변을 평가자 LLM인 GPT-4가 10점 만점 점수와 평가 설명을 제시- MT-Bench : 8개의 카테고리에 대한 질문 10개씩으로 구성되어 있는 벤치마크
- 리더보드에는 각 요소의 평균 점수와 총 평균 점수가 제시되어 있음
- 해당 방법으로 평가 결과와 실제 성능의 괴리가 있다는 harness 식 리더보드의 문제점을 해결하고자 함
- 벤치마크 데이터셋을 활용한 평가 방법(harness식)은 LLM이 ‘얼마나 똑똑한지’에 대해서는 확인할 수 있으나 ‘사람의 요청에 얼마나 잘 대응하는지’는 판단하지 못함
- 따라서 좋은 챗봇이 좋은 점수를 받기 힘든 평가 방식이었고 LogicKor 리더보드는 챗봇에 더 적합한 리더보드를 만들고자 한 것으로 보임
반응형
'LLM > Evaluation' 카테고리의 다른 글
LLM 리더보드 분석 | Chatbot Arena 리더보드 (2) | 2024.09.22 |
---|---|
LLM 리더보드 분석 | Open Ko-LLM 리더보드 (1) | 2024.09.22 |
LLM 리더보드 분석 | 호랑이(Horangi) 한국어 LLM 리더보드 (0) | 2024.09.21 |
LLM 리더보드 분석 | Allganize - RAG 리더보드 (0) | 2024.09.20 |
한국어 LLM 평가 방법 : 벤치마크 데이터셋, LLM, 정량적 지표를 통해 (1) | 2024.09.20 |