반응형
개요
5개의 도메인(금융, 공공, 의료, 법률, 커머스)에 대해서서 한국어 RAG 성능 평가 리더보드
- RAG 도입을 원하는 수많은 기업들을 대상으로 함
- 자사에 맞는 도메인, 문서 타입, 질문 형태를 반영
- 특히 기업 문서를 잘 반영할 수 있도록 문서의 테이블, 이미지에 대한 질문을 하여 LLM 평가
- Parser, Retrieval, Generation 3가지 파트를 전체적으로 평가
- allganize/RAG-Evaluation-Dataset-KO · Datasets at Hugging Face
- RAG 리더보드 공개-금융, 공공, 의료, 법률, 커머스 한국어 RAG 성능 평가
RAG 리더보드 공개-금융, 공공, 의료, 법률, 커머스 한국어 RAG 성능 평가
올거나이즈가 RAG 리더보드를 공개했습니다. 금융, 공공, 의료, 법률, 커머스의 한국어 RAG 성능을 평가하실 수 있습니다. 테스트 데이터 셋까지 모두 공개해 누구나 사용 가능합니다. 기업을 위한
blog-ko.allganize.ai
평가 데이터셋
기업들의 RAG 성능 평가를 돕기 위해 테스트 데이터셋 공개
실제 업무 문서에 복잡한 표, 이미지 등이 있다는 점을 감안해 표, 이미지 데이터도 테스트 데이터셋에 포함
Documents
- 각 도메인별 문서의 페이지 수 총합이 2~300
- 문서 리스트 [documents.csv · allganize/RAG-Evaluation-Dataset-KO at main]
Question & Target Answer
- 문서들을 보고 각 도메인별로 60개의 질문을 자체적으로 만듦
- 각 질문별 근거가 문단(paragraph)인지, 테이블(table)인지, 이미지(image)인지 구분하여 같이 저장
평가 방법
분야마다 질문 60개를 입력한 뒤 ‘이상없음’으로 판명된 답변의 비율로 평가
- 각 분야별로 2~300 페이지의 문서를 업로드
- 분야마다 자체적으로 만든 질문 60개를 사용해 평가 대상 LLM으로부터 답변 얻음
- 생성한 답변과 정답 답변을 4개의 평가 툴에 적용하여 4개 중 3개 이상에서 오류가 없을 경우 ‘이상 없음’으로 판명
- 4개의 평가 툴
- TonicAI : answer_similarity (threshold=4) RAG metrics reference | Tonic Validate
- MLflow : answer_similarity/v1/score (threshold=4) mlflow.metrics LLM Evaluation with MLflow Example Notebook
- MLflow : answer_correctness/v1/score (threshold=4)
- Allganize Eval : answer_correctness/claude3-opus
- 이전에는 5개의 평가 툴을 사용했었음
- RAGAS : answer_correctness (threshold=0.6)
- TonicAI : answer_similarity (threshold=4)
- MLflow : answer_similarity/v1/score (threshold=4)
- MLflow : answer_correctness/v1/score (threshold=4)
- Allganize Eval : answer_correctness/claude3-opus
반응형
'LLM > Evaluation' 카테고리의 다른 글
LLM 리더보드 분석 | Chatbot Arena 리더보드 (2) | 2024.09.22 |
---|---|
LLM 리더보드 분석 | Open Ko-LLM 리더보드 (1) | 2024.09.22 |
LLM 리더보드 분석 | LogicKor 리더보드 (1) | 2024.09.21 |
LLM 리더보드 분석 | 호랑이(Horangi) 한국어 LLM 리더보드 (0) | 2024.09.21 |
한국어 LLM 평가 방법 : 벤치마크 데이터셋, LLM, 정량적 지표를 통해 (1) | 2024.09.20 |