Paper Review | BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
·
LLM/Paper Review
GPT 논문에 이어서 BERT 논문을 읽어보았다. 다른 논문 리뷰들처럼 Introduction-Related works-... 순서는 아니나 논문의 핵심을 최대한 담을 수 있도록 목차를 구성했으니 이 글의 독자 분들이 BERT를 이해하실 때 이 글을 유용하게 사용해주시기를 바란다. What did authors try to accomplish?문제점과 해결방법을 기반으로 해당 논문에서 기여한 바문제점: 기존의 언어 모델은 단방향 구조로 되어 있어 양방향 정보를 활용하지 못한다.사전 학습된 표현을 다운스트림 작업에 적용하는 주요 방식은 두 가지가 있는데,특징 기반 접근법: 사전 학습된 표현을 기존의 작업 특화 아키텍처에 통합하여 추가적인 특징으로 활용하는 방식이다. e.g. ELMo미세 조정 접근법: 최소..
Paper Review | Improving Language Understanding by Generative Pre-Training (GPT-1)
·
LLM/Paper Review
What did authors try to accomplish?문제점과 해결방법을 기반으로 해당 논문에서 기여한 바문제점: unlabeled data가 풍족한 것에 비해, 특정 작업을 위한 labeled data는 부족하다.해결방법:GPT(Generative Pre-trained Transformer)unlabeled 데이터를 활용해 비지도학습 방식으로 학습한 후, 각 작업에 맞게 fine-tuning을 진행하였다.Unlabeled data에 대한 generative pre-training 후, 각 작업별 discriminative fine-tuning 수행.풍부한 unlabeled 데이터를 비지도학습 방식으로 활용하며, 각 작업에 전이 가능한 일반화된 표현과 장기 종속성을 처리하는 능력을 학습할 수 있..
Paper Review | LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models
·
LLM/Paper Review
What did authors try to accomplish?문제점과 해결방법을 기반으로 해당 논문에서 기여한 바 문제점 : 커뮤니티에서 다양한 효율적인 미세 조정 방법이 기여되고 있지만, 서로 다른 LLM에 대해 이러한 방법을 조정하고 통합할 수 있는 체계적인 프레임워크가 부족하다.해결점 : LLM의 효율적인 파인튜닝을 위한 통합 프레임워크, LLAMA-FACTORY 개발Data Worker, Model Loader, Trainer 모듈간의 종속성을 최소화하여 다양한 모델, 데이터셋, 훈련 방법에 대해 통합적으로 사용할 수 있는 프레임워크 제공커맨드 라인이나 웹 인터페이스를 통해 코드 작업 없이 LLM을 커스터마이즈하고 파인튜닝 가능하도록 함What were the key elements of the..
LLM 리더보드 분석 | Chatbot Arena 리더보드
·
LLM/Evaluation
개요사람들의 평가로 다양한 LLM을 상호 비교할 수 있는 리더보드사용자의 동일한 요청에 대해 2개의 모델의 응답을 사용자에게 보여주고 사용자가 어떤 응답이 더 우수한지 평가LLM의 대화 생성 능력 평가할 수 있음현재 multimodal arena도 지원이 돼서 image도 업로드할 수 있음Chat with Open Large Language ModelsIntroducing the Chatbot Guardrails ArenaKo Chatbot Arena Leaderboard - a Hugging Face Space by instructkr > 한국어 버전 리더보드도 있으나 현재 운영 중이지 않은 것 같음평가 데이터셋사용자들이 실제 대화를 통해 모델들을 비교 평가한 결과MT-BenchMMLU 평가 데이터셋은..
LLM 리더보드 분석 | Open Ko-LLM 리더보드
·
LLM/Evaluation
개요누구나 한국어 LLM을 등록하고 다른 모델과 경쟁할 수 있는 공개 플랫폼Upstage-NIA가 공동으로 구축하였으며, KT 클라우드에서 인프라 지원한국어 특성과 문화를 반영한 고품질의 데이터를 자체 구축기존 hugging face 리더보드에 ‘상식생성’ 기준을 추가Open Ko-LLM Leaderboard - a Hugging Face Space by upstage  평가 데이터셋Ko-GPQA (provided by Flitto)평가 능력: 고급 지식 및 추론 능력설명: 대학원 수준의 복잡한 질문에 대한 응답 능력을 평가Ko-WinoGrande (provided by Flitto)평가 능력: 상식적 추론 및 모호성 해소설명: 문맥에 따른 대명사 해석 능력을 테스트Ko-GSM8K (provided by..
LLM 리더보드 분석 | LogicKor 리더보드
·
LLM/Evaluation
개요 한국어 언어모델 다분야 사고력 벤치마크“한국어 추론, 수학, 글쓰기, 코딩, 이해, 문법, 싱글턴, 멀티턴”의 다양한 요소를 종합적으로 측정GPT-4를 LLM 평가자로 두어 좀 더 챗봇에 적합한, 실제 성능과 유사한 LLM 성능 평가 가능총점 10점 만점 체계를 사용하여 각 요소별로 세부 점수를 제공함리더보드에 있는 모델 클릭 시 모델 정보와 샘플링 파라미터 정보 제공모델에 입력으로 들어간 질문과 답변, 답변에 대한 평가, 해당 샘플에 대한 평가 점수를 보여줌LogicKor Leaderboard - a Hugging Face Space by instructkrGitHub - instructkr/LogicKor: 한국어 언어모델 다분야 사고력 벤치마크평가 데이터셋 MT-Bench를 벤치마킹하여 6개의..