RAG의 R, Retrieval(검색)그 고도화 방법에 대해서
·
LLM/Application
필자는 지금 회사에서 하고 있는 프로젝트 수행 중에서 검색 기능을 구현하고 있다. 지금은 기본적인 RAG에서의 검색 기능만 갖추고 있기에 현재까지 구현된 검색 기법은 어떤 기술에 비롯되었는지, 또 이를 어떻게 고도화할 수 있을지에 대해서 알아보았다. 아래는 아래 글의 요약이다. Hybrid Search (BM25 + bi-encoder): 키워드와 의미를 모두 반영하여 다양한 질의 유형에 강건한 검색 성능 확보 가능. Cross-Encoder Reranking: 빠른 초기 검색(Hybrid Search) 후 후보 문서의 정밀 재정렬. 정답 문서가 context 상위에 배치되도록 하여 응답 품질 향상. Query Expansion: 사용자의 표현력에 의존하지 않고 다양한 질의 버전을 생성해 검색 re..
vLLM의 주요 기술 및 전체적인 구조: PagedAttention, Continuous Batching, Speculative Decoding, Chunked Prefill
·
LLM/Inference
vLLM은 LLM을 쉽고 빠르게 추론 및 서빙할 수 있는 라이브러리로 PagedAttention과 Continous batching이 주요 기술로 꼽힌다. 이번 게시글에서는 vLLM이 어떤 특징을 가지고 있는지와 그 주요 기술들이 어떻게 LLM 성능 최적화를 이뤄내는지에 대해 알아보도록 하겠다.  vLLM의 특징vLLM은 LLM이 문장을 빠르게 생성하도록 하는 기법들을 활발하게 지원한다. 최첨단 서빙 처리량 제공PagedAttention으로 key, value 메모리를 효율적으로 관리입력으로 들어오는 요청에 대해서 Continous batching 처리 가능CUDA/HIP 그래프를 통해 빠르게 모델 실행GPTQ, AWQ, FP8 KV Cache 등 다양한 양자화 기법 지원FlashAttention 및 F..
LLM은 어떻게 추론하는가? Transformer부터 GPT, KV 캐시까지
·
LLM/Inference
필자는 어제 면접을 보고 왔다.면접 중 너무 어이없는 경험을 하였는데 프로젝트에 대한 답변은 잘하면서도, LLM 기초, 전공 지식에 대해 질문을 받으면 말문이 막히는거다. 물론 머리로는 대충 알고 있다. 이게 어떻게 동작하고 언제 쓰이는지. 근데 이게 말로 표현이 안된다. 와 이러면 내가 잘 알고 있다고 말할 수 있나?이러한 의문이 들어 알고 있는 것도 글로, 말로 재정리해보는 시간을 가지기로 하였다.일단 Transformer가 뭐더라?Transformer는 기존의 seq2seq의 인코더-디코더를 구조를 따르면서도 어텐션 메커니즘만을 사용하여 구현된 모델이다. 기존의 seq2seq 모델은 인코더-디코더 구조로 이루어져 있으며, RNN(순환신경망)을 사용한다. 인코더에서 순차적으로 입력 텍스트에 대한 액기..
Paper Review | Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters (+무료 자료 공유)
·
LLM/Paper Review
회사에서 기술 세미나를 준비하면서 아주 세세하게, 기존의 논문 리뷰와 다른 형식으로 논문 리뷰 글을 작성해보았습니다. 해당 논문은 요즘 주목받고 있는 OpenAI의 o1, o3, Deepseek의 r1과 같이 추론 모델의 근간이 된 Test-Time Scaling을 LLM에서 실험해본 논문으로, 개인적으로 "모델이 더 오래 생각한다니.."하고 흥미롭게 읽었습니다. 게다가 젠슨 황이 pre-training, post-training을 이은 Scaling Laws의 새로운 단계는 Test-Time Scaling이라고 언급한 것을 보았는데, 그것 덕분에 Test-Time Scaling이 추론 모델에 얼마나 큰 반향을 불러일으킬지에 집중하면서 읽을 수 있었습니다.  Background먼저 논문에 등장하는 tes..
Paper Review | Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes
·
LLM/Paper Review
저번에 Knowledge distillation에 대해서 공부했었는데 LLM이라는 거대 모델에서는 어떻게 활용할 수 있는지 알아보았다. 참고로 이 논문 리뷰를 읽기 전 아래의 Knowledge distillation 정리글을 읽으면 더 잘 이해가 될 것이다. https://soyoonblog.tistory.com/entry/Knowledge-Distillation-%EB%AC%B4%EC%97%87%EC%9D%B8%EA%B0%80 Knowledge Distillation, 무엇인가?최근 큰 LLM들을 돌리며 모델 메모리, 연산 시간 등의 자원들을 신경쓰게 되었고, 큰 모델의 성능을 최대한 지키면서 모델 크기는 크게 축소시킬 수 있는 Knowledge Distillation에 대해 관심이 생겨서soyoonb..
Knowledge Distillation, 무엇인가?
·
Deep Learning
최근 큰 LLM들을 돌리며 모델 메모리, 연산 시간 등의 자원들을 신경쓰게 되었고, 큰 모델의 성능을 최대한 지키면서 모델 크기는 크게 축소시킬 수 있는 Knowledge Distillation에 대해 관심이 생겨서 알아보기로 하였다. Knowledge Distillation은 크기가 큰 모델에서 증류된 지식을 작은 모델로 전달하는 기술이라고 할 수 있다. 여기서 크기가 큰 모델은 Teacher Model, 작은 모델은 Student Model로 부르며, 증류 과정을 교사 모델이 학생 모델에게 지식을 가르치는 행위로 표현하고 있다. Knowledge Distillation은 왜 하는걸까?요즘 인공지능 업계에서는 Knowledge Distillation, pruning, quantization과 같은 모델..