Paper Review | BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
·
LLM/Paper Review
GPT 논문에 이어서 BERT 논문을 읽어보았다. 다른 논문 리뷰들처럼 Introduction-Related works-... 순서는 아니나 논문의 핵심을 최대한 담을 수 있도록 목차를 구성했으니 이 글의 독자 분들이 BERT를 이해하실 때 이 글을 유용하게 사용해주시기를 바란다. What did authors try to accomplish?문제점과 해결방법을 기반으로 해당 논문에서 기여한 바문제점: 기존의 언어 모델은 단방향 구조로 되어 있어 양방향 정보를 활용하지 못한다.사전 학습된 표현을 다운스트림 작업에 적용하는 주요 방식은 두 가지가 있는데,특징 기반 접근법: 사전 학습된 표현을 기존의 작업 특화 아키텍처에 통합하여 추가적인 특징으로 활용하는 방식이다. e.g. ELMo미세 조정 접근법: 최소..
Paper Review | Improving Language Understanding by Generative Pre-Training (GPT-1)
·
LLM/Paper Review
What did authors try to accomplish?문제점과 해결방법을 기반으로 해당 논문에서 기여한 바문제점: unlabeled data가 풍족한 것에 비해, 특정 작업을 위한 labeled data는 부족하다.해결방법:GPT(Generative Pre-trained Transformer)unlabeled 데이터를 활용해 비지도학습 방식으로 학습한 후, 각 작업에 맞게 fine-tuning을 진행하였다.Unlabeled data에 대한 generative pre-training 후, 각 작업별 discriminative fine-tuning 수행.풍부한 unlabeled 데이터를 비지도학습 방식으로 활용하며, 각 작업에 전이 가능한 일반화된 표현과 장기 종속성을 처리하는 능력을 학습할 수 있..
Paper Review | LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models
·
LLM/Paper Review
What did authors try to accomplish?문제점과 해결방법을 기반으로 해당 논문에서 기여한 바 문제점 : 커뮤니티에서 다양한 효율적인 미세 조정 방법이 기여되고 있지만, 서로 다른 LLM에 대해 이러한 방법을 조정하고 통합할 수 있는 체계적인 프레임워크가 부족하다.해결점 : LLM의 효율적인 파인튜닝을 위한 통합 프레임워크, LLAMA-FACTORY 개발Data Worker, Model Loader, Trainer 모듈간의 종속성을 최소화하여 다양한 모델, 데이터셋, 훈련 방법에 대해 통합적으로 사용할 수 있는 프레임워크 제공커맨드 라인이나 웹 인터페이스를 통해 코드 작업 없이 LLM을 커스터마이즈하고 파인튜닝 가능하도록 함What were the key elements of the..
Paper Review | DALL-E : Zero-Shot Text-to-Image Generation
·
Computer Vision
Text-to-image task의 유명한 논문인 “Zero-Shot Text-to-Image Generation”을 읽었다. OpenAI에서 개발한 DALL-E라는 유명한 텍스트 기반 이미지 생성 모델의 기반이 되는 논문인데 그래서인지 큰 모델과 큰 데이터셋까지.. 약간 기업의 자본에 압도되는 논문이었다. 그리고 큰 모델을 안정적으로 학습하기 위한 방법까지 서술해놓아 이해하기는 어려웠다만 연구자들에게 좋은 팁이 될 거 같다.해당 논문이 강조하는 바를 두 가지로 나타낼 수 있는데 다음과 같다.120억 개의 파라미터를 가진 GPT-3 기반 autoregressive transformers2.5억 개의 Image-caption 데이터쌍으로 학습이렇게 학습한 결과, MS-COCO 데이터셋에서 zero-shot..