'분류 전체보기' 카테고리의 글 목록 (3 Page)

개요llm-kr-eval, MT-Bench 총 두 가지 방법을 통하여 LLM의 한국어 능력을 평가하기 위한 리더보드llm-kr-eval : 질의응답 형식의 언어 이해 평가MT-Bench : 멀티 턴 대화에 대한 생성 능력 평가W&B의 테이블 기능 활용하여 평가 결과 다양한 시각에서 쉽게 분석 가능기존에 출시된 유명 LLM들을 baseline으로 제공하여 그들과 우리 모델을 비교 가능GitHub - wandb/llm-leaderboard at koreanHorangi 한국어 LLM 리더보드평가 데이터셋llm-kr-eval공개된 벤치마크 데이터셋 활용5개의 평가 부문에 맞는 데이터셋 활용NLI (Natural Language Inference) : KorNLI(exact), KoBEST_HellaSwag(e..

개요5개의 도메인(금융, 공공, 의료, 법률, 커머스)에 대해서서 한국어 RAG 성능 평가 리더보드RAG 도입을 원하는 수많은 기업들을 대상으로 함자사에 맞는 도메인, 문서 타입, 질문 형태를 반영특히 기업 문서를 잘 반영할 수 있도록 문서의 테이블, 이미지에 대한 질문을 하여 LLM 평가Parser, Retrieval, Generation 3가지 파트를 전체적으로 평가allganize/RAG-Evaluation-Dataset-KO · Datasets at Hugging FaceRAG 리더보드 공개-금융, 공공, 의료, 법률, 커머스 한국어 RAG 성능 평가 RAG 리더보드 공개-금융, 공공, 의료, 법률, 커머스 한국어 RAG 성능 평가올거나이즈가 RAG 리더보드를 공개했습니다. 금융, 공공, 의료, ..

벤치마크 데이터셋을 활용한 평가 벤치마크 데이터셋다양한 모델의 성능을 비교하기 위해 공통으로 사용되는 데이터셋대표적으로 많이 사용되는 벤치마크 데이터셋 BIG 6에는 ARC, HellaSwag, MMLU, TruthfulQA, Winogrande, GSM8k가 있음ARC, HellaSwag, MMLU, TruthfulQA는 한국어로 번역되어 업스테이지 리더보드에 사용되기도 함 데이터셋평가지표주요내용ARC추론능력사지선다형 과학 문제HellaSwag상식능력미완성된 구절을 완성MMLU언어이해력57개의 다양한 분야에 대한 사지선다형 문제TruthfulQA환각방지능력흔하게 오해하기 좋은 상식들 질문 → 객관식 또는 서술형으로 답함Winogrande문맥 기반 추론거의 동일한 문장 쌍의 형태 구별GSM8k수학적 추론..

Text-to-image task의 유명한 논문인 “Zero-Shot Text-to-Image Generation”을 읽었다. OpenAI에서 개발한 DALL-E라는 유명한 텍스트 기반 이미지 생성 모델의 기반이 되는 논문인데 그래서인지 큰 모델과 큰 데이터셋까지.. 약간 기업의 자본에 압도되는 논문이었다. 그리고 큰 모델을 안정적으로 학습하기 위한 방법까지 서술해놓아 이해하기는 어려웠다만 연구자들에게 좋은 팁이 될 거 같다.해당 논문이 강조하는 바를 두 가지로 나타낼 수 있는데 다음과 같다.120억 개의 파라미터를 가진 GPT-3 기반 autoregressive transformers2.5억 개의 Image-caption 데이터쌍으로 학습이렇게 학습한 결과, MS-COCO 데이터셋에서 zero-shot..

남의 말을 듣는 것보다 이를 나의 말로 재정리하는 것이 지식을 오래 남길 수 있는 방법인 것 같아블로그를 시작했습니다!!이번 포스팅에서는 VAE에 대해서 설명하겠습니다.Generative ModelsVAE는 생성모델의 일종이므로 생성모델 중 어느 종류에 속해있는지를 살펴보고 VAE에 대해 더 자세히 알아보는 시간을 갖도록 하겠습니다.일단 생성모델이란 무엇일까요?그 정의를 생성하면 생성 모델은 주어진 학습 데이터를 학습하여서 그 데이터들과 유사한 분포를 띠는 데이터를 생성하는 모델을 말합니다.요즘 핫한 ChatGPT나 Stable Diffusion이 생성 모델에 속합니다.생성모델이 샘플링을 하는 과정에 있어서 두 가지로 나눌 수 있는데 학습 데이터의 분포를 어느 정도 아는 상태에서 샘플을 생성하는 경우는 ..

티스토리툴바