vLLM의 주요 기술 및 전체적인 구조: PagedAttention, Continuous Batching, Speculative Decoding, Chunked Prefill
·
LLM/Inference
vLLM은 LLM을 쉽고 빠르게 추론 및 서빙할 수 있는 라이브러리로 PagedAttention과 Continous batching이 주요 기술로 꼽힌다. 이번 게시글에서는 vLLM이 어떤 특징을 가지고 있는지와 그 주요 기술들이 어떻게 LLM 성능 최적화를 이뤄내는지에 대해 알아보도록 하겠다.  vLLM의 특징vLLM은 LLM이 문장을 빠르게 생성하도록 하는 기법들을 활발하게 지원한다. 최첨단 서빙 처리량 제공PagedAttention으로 key, value 메모리를 효율적으로 관리입력으로 들어오는 요청에 대해서 Continous batching 처리 가능CUDA/HIP 그래프를 통해 빠르게 모델 실행GPTQ, AWQ, FP8 KV Cache 등 다양한 양자화 기법 지원FlashAttention 및 F..
LLM은 어떻게 추론하는가? Transformer부터 GPT, KV 캐시까지
·
LLM/Inference
필자는 어제 면접을 보고 왔다.면접 중 너무 어이없는 경험을 하였는데 프로젝트에 대한 답변은 잘하면서도, LLM 기초, 전공 지식에 대해 질문을 받으면 말문이 막히는거다. 물론 머리로는 대충 알고 있다. 이게 어떻게 동작하고 언제 쓰이는지. 근데 이게 말로 표현이 안된다. 와 이러면 내가 잘 알고 있다고 말할 수 있나?이러한 의문이 들어 알고 있는 것도 글로, 말로 재정리해보는 시간을 가지기로 하였다.일단 Transformer가 뭐더라?Transformer는 기존의 seq2seq의 인코더-디코더를 구조를 따르면서도 어텐션 메커니즘만을 사용하여 구현된 모델이다. 기존의 seq2seq 모델은 인코더-디코더 구조로 이루어져 있으며, RNN(순환신경망)을 사용한다. 인코더에서 순차적으로 입력 텍스트에 대한 액기..