
vLLM의 주요 기술 및 전체적인 구조: PagedAttention, Continuous Batching, Speculative Decoding, Chunked Prefill
·
LLM/Inference
vLLM은 LLM을 쉽고 빠르게 추론 및 서빙할 수 있는 라이브러리로 PagedAttention과 Continous batching이 주요 기술로 꼽힌다. 이번 게시글에서는 vLLM이 어떤 특징을 가지고 있는지와 그 주요 기술들이 어떻게 LLM 성능 최적화를 이뤄내는지에 대해 알아보도록 하겠다. vLLM의 특징vLLM은 LLM이 문장을 빠르게 생성하도록 하는 기법들을 활발하게 지원한다. 최첨단 서빙 처리량 제공PagedAttention으로 key, value 메모리를 효율적으로 관리입력으로 들어오는 요청에 대해서 Continous batching 처리 가능CUDA/HIP 그래프를 통해 빠르게 모델 실행GPTQ, AWQ, FP8 KV Cache 등 다양한 양자화 기법 지원FlashAttention 및 F..