
Paper Review | DALL-E : Zero-Shot Text-to-Image Generation
·
Computer Vision
Text-to-image task의 유명한 논문인 “Zero-Shot Text-to-Image Generation”을 읽었다. OpenAI에서 개발한 DALL-E라는 유명한 텍스트 기반 이미지 생성 모델의 기반이 되는 논문인데 그래서인지 큰 모델과 큰 데이터셋까지.. 약간 기업의 자본에 압도되는 논문이었다. 그리고 큰 모델을 안정적으로 학습하기 위한 방법까지 서술해놓아 이해하기는 어려웠다만 연구자들에게 좋은 팁이 될 거 같다.해당 논문이 강조하는 바를 두 가지로 나타낼 수 있는데 다음과 같다.120억 개의 파라미터를 가진 GPT-3 기반 autoregressive transformers2.5억 개의 Image-caption 데이터쌍으로 학습이렇게 학습한 결과, MS-COCO 데이터셋에서 zero-shot..