vLLM의 주요 기술 및 전체적인 구조: PagedAttention, Continuous Batching, Speculative Decoding, Chunked Prefill
·
LLM/Inference
vLLM은 LLM을 쉽고 빠르게 추론 및 서빙할 수 있는 라이브러리로 PagedAttention과 Continous batching이 주요 기술로 꼽힌다. 이번 게시글에서는 vLLM이 어떤 특징을 가지고 있는지와 그 주요 기술들이 어떻게 LLM 성능 최적화를 이뤄내는지에 대해 알아보도록 하겠다.  vLLM의 특징vLLM은 LLM이 문장을 빠르게 생성하도록 하는 기법들을 활발하게 지원한다. 최첨단 서빙 처리량 제공PagedAttention으로 key, value 메모리를 효율적으로 관리입력으로 들어오는 요청에 대해서 Continous batching 처리 가능CUDA/HIP 그래프를 통해 빠르게 모델 실행GPTQ, AWQ, FP8 KV Cache 등 다양한 양자화 기법 지원FlashAttention 및 F..
LLM은 어떻게 추론하는가? Transformer부터 GPT, KV 캐시까지
·
LLM/Inference
필자는 어제 면접을 보고 왔다.면접 중 너무 어이없는 경험을 하였는데 프로젝트에 대한 답변은 잘하면서도, LLM 기초, 전공 지식에 대해 질문을 받으면 말문이 막히는거다. 물론 머리로는 대충 알고 있다. 이게 어떻게 동작하고 언제 쓰이는지. 근데 이게 말로 표현이 안된다. 와 이러면 내가 잘 알고 있다고 말할 수 있나?이러한 의문이 들어 알고 있는 것도 글로, 말로 재정리해보는 시간을 가지기로 하였다.일단 Transformer가 뭐더라?Transformer는 기존의 seq2seq의 인코더-디코더를 구조를 따르면서도 어텐션 메커니즘만을 사용하여 구현된 모델이다. 기존의 seq2seq 모델은 인코더-디코더 구조로 이루어져 있으며, RNN(순환신경망)을 사용한다. 인코더에서 순차적으로 입력 텍스트에 대한 액기..
Paper Review | Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters (+무료 자료 공유)
·
LLM/Paper Review
회사에서 기술 세미나를 준비하면서 아주 세세하게, 기존의 논문 리뷰와 다른 형식으로 논문 리뷰 글을 작성해보았습니다. 해당 논문은 요즘 주목받고 있는 OpenAI의 o1, o3, Deepseek의 r1과 같이 추론 모델의 근간이 된 Test-Time Scaling을 LLM에서 실험해본 논문으로, 개인적으로 "모델이 더 오래 생각한다니.."하고 흥미롭게 읽었습니다. 게다가 젠슨 황이 pre-training, post-training을 이은 Scaling Laws의 새로운 단계는 Test-Time Scaling이라고 언급한 것을 보았는데, 그것 덕분에 Test-Time Scaling이 추론 모델에 얼마나 큰 반향을 불러일으킬지에 집중하면서 읽을 수 있었습니다.  Background먼저 논문에 등장하는 tes..
Paper Review | Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes
·
LLM/Paper Review
저번에 Knowledge distillation에 대해서 공부했었는데 LLM이라는 거대 모델에서는 어떻게 활용할 수 있는지 알아보았다. 참고로 이 논문 리뷰를 읽기 전 아래의 Knowledge distillation 정리글을 읽으면 더 잘 이해가 될 것이다. https://soyoonblog.tistory.com/entry/Knowledge-Distillation-%EB%AC%B4%EC%97%87%EC%9D%B8%EA%B0%80 Knowledge Distillation, 무엇인가?최근 큰 LLM들을 돌리며 모델 메모리, 연산 시간 등의 자원들을 신경쓰게 되었고, 큰 모델의 성능을 최대한 지키면서 모델 크기는 크게 축소시킬 수 있는 Knowledge Distillation에 대해 관심이 생겨서soyoonb..
Knowledge Distillation, 무엇인가?
·
Deep Learning
최근 큰 LLM들을 돌리며 모델 메모리, 연산 시간 등의 자원들을 신경쓰게 되었고, 큰 모델의 성능을 최대한 지키면서 모델 크기는 크게 축소시킬 수 있는 Knowledge Distillation에 대해 관심이 생겨서 알아보기로 하였다. Knowledge Distillation은 크기가 큰 모델에서 증류된 지식을 작은 모델로 전달하는 기술이라고 할 수 있다. 여기서 크기가 큰 모델은 Teacher Model, 작은 모델은 Student Model로 부르며, 증류 과정을 교사 모델이 학생 모델에게 지식을 가르치는 행위로 표현하고 있다. Knowledge Distillation은 왜 하는걸까?요즘 인공지능 업계에서는 Knowledge Distillation, pruning, quantization과 같은 모델..
Paper Review | BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
·
LLM/Paper Review
GPT 논문에 이어서 BERT 논문을 읽어보았다. 다른 논문 리뷰들처럼 Introduction-Related works-... 순서는 아니나 논문의 핵심을 최대한 담을 수 있도록 목차를 구성했으니 이 글의 독자 분들이 BERT를 이해하실 때 이 글을 유용하게 사용해주시기를 바란다. What did authors try to accomplish?문제점과 해결방법을 기반으로 해당 논문에서 기여한 바문제점: 기존의 언어 모델은 단방향 구조로 되어 있어 양방향 정보를 활용하지 못한다.사전 학습된 표현을 다운스트림 작업에 적용하는 주요 방식은 두 가지가 있는데,특징 기반 접근법: 사전 학습된 표현을 기존의 작업 특화 아키텍처에 통합하여 추가적인 특징으로 활용하는 방식이다. e.g. ELMo미세 조정 접근법: 최소..