Paper Review | DALL-E : Zero-Shot Text-to-Image Generation
·
Computer Vision
Text-to-image task의 유명한 논문인 “Zero-Shot Text-to-Image Generation”을 읽었다. OpenAI에서 개발한 DALL-E라는 유명한 텍스트 기반 이미지 생성 모델의 기반이 되는 논문인데 그래서인지 큰 모델과 큰 데이터셋까지.. 약간 기업의 자본에 압도되는 논문이었다. 그리고 큰 모델을 안정적으로 학습하기 위한 방법까지 서술해놓아 이해하기는 어려웠다만 연구자들에게 좋은 팁이 될 거 같다.해당 논문이 강조하는 바를 두 가지로 나타낼 수 있는데 다음과 같다.120억 개의 파라미터를 가진 GPT-3 기반 autoregressive transformers2.5억 개의 Image-caption 데이터쌍으로 학습이렇게 학습한 결과, MS-COCO 데이터셋에서 zero-shot..
Variational Auto Encoder, 즉 VAE란 무엇인가?
·
Computer Vision
남의 말을 듣는 것보다 이를 나의 말로 재정리하는 것이 지식을 오래 남길 수 있는 방법인 것 같아블로그를 시작했습니다!!이번 포스팅에서는 VAE에 대해서 설명하겠습니다.Generative ModelsVAE는 생성모델의 일종이므로 생성모델 중 어느 종류에 속해있는지를 살펴보고 VAE에 대해 더 자세히 알아보는 시간을 갖도록 하겠습니다.일단 생성모델이란 무엇일까요?그 정의를 생성하면 생성 모델은 주어진 학습 데이터를 학습하여서 그 데이터들과 유사한 분포를 띠는 데이터를 생성하는 모델을 말합니다.요즘 핫한 ChatGPT나 Stable Diffusion이 생성 모델에 속합니다.생성모델이 샘플링을 하는 과정에 있어서 두 가지로 나눌 수 있는데 학습 데이터의 분포를 어느 정도 아는 상태에서 샘플을 생성하는 경우는 ..