Knowledge Distillation, 무엇인가?
·
Deep Learning
최근 큰 LLM들을 돌리며 모델 메모리, 연산 시간 등의 자원들을 신경쓰게 되었고, 큰 모델의 성능을 최대한 지키면서 모델 크기는 크게 축소시킬 수 있는 Knowledge Distillation에 대해 관심이 생겨서 알아보기로 하였다. Knowledge Distillation은 크기가 큰 모델에서 증류된 지식을 작은 모델로 전달하는 기술이라고 할 수 있다. 여기서 크기가 큰 모델은 Teacher Model, 작은 모델은 Student Model로 부르며, 증류 과정을 교사 모델이 학생 모델에게 지식을 가르치는 행위로 표현하고 있다. Knowledge Distillation은 왜 하는걸까?요즘 인공지능 업계에서는 Knowledge Distillation, pruning, quantization과 같은 모델..