from soyoon import DeepLearning

안녕하세요!오늘은 혁신적인 검색 기법을 제안하고 있는 MUVERA 라는 논문을 깊게 공부해보는 시간을 갖겠습니다. 오늘 살펴볼 MUVERA는 구글 리서치에서 작년 5월에 발표한 논문으로, 다중 벡터 유사도 검색을 단일 벡터 검색으로 변환하는 혁신적인 다중 벡터 검색 알고리즘을 제안합니다. Introduction 먼저 임베딩 모델 기반 검색 시스템의 발전에 대해 살펴보도록 하겠습니다. 임베딩 모델과 단일 벡터 모델 딥러닝 기반 임베딩 모델은 방대한 데이터셋에서 사용자 쿼리에 대한 연관 정보를 빠르게 찾기 위한 핵심적인 도구로 사용되고 있는데요.이에 따라 단일 벡터 모델이 등장하게 됩니다. 단일 벡터 모델이란 문서나 질의당 하나의 임베딩 벡터를 생성하고, 내적 기반 유사도 계산(MIPS, Maximu..

필자는 지금 회사에서 하고 있는 프로젝트 수행 중에서 검색 기능을 구현하고 있다. 지금은 기본적인 RAG에서의 검색 기능만 갖추고 있기에 현재까지 구현된 검색 기법은 어떤 기술에 비롯되었는지, 또 이를 어떻게 고도화할 수 있을지에 대해서 알아보았다. 아래는 아래 글의 요약이다. Hybrid Search (BM25 + bi-encoder): 키워드와 의미를 모두 반영하여 다양한 질의 유형에 강건한 검색 성능 확보 가능. Cross-Encoder Reranking: 빠른 초기 검색(Hybrid Search) 후 후보 문서의 정밀 재정렬. 정답 문서가 context 상위에 배치되도록 하여 응답 품질 향상. Query Expansion: 사용자의 표현력에 의존하지 않고 다양한 질의 버전을 생성해 검색 re..

vLLM은 LLM을 쉽고 빠르게 추론 및 서빙할 수 있는 라이브러리로 PagedAttention과 Continous batching이 주요 기술로 꼽힌다. 이번 게시글에서는 vLLM이 어떤 특징을 가지고 있는지와 그 주요 기술들이 어떻게 LLM 성능 최적화를 이뤄내는지에 대해 알아보도록 하겠다. vLLM의 특징vLLM은 LLM이 문장을 빠르게 생성하도록 하는 기법들을 활발하게 지원한다. 최첨단 서빙 처리량 제공PagedAttention으로 key, value 메모리를 효율적으로 관리입력으로 들어오는 요청에 대해서 Continous batching 처리 가능CUDA/HIP 그래프를 통해 빠르게 모델 실행GPTQ, AWQ, FP8 KV Cache 등 다양한 양자화 기법 지원FlashAttention 및 F..

필자는 어제 면접을 보고 왔다.면접 중 너무 어이없는 경험을 하였는데 프로젝트에 대한 답변은 잘하면서도, LLM 기초, 전공 지식에 대해 질문을 받으면 말문이 막히는거다. 물론 머리로는 대충 알고 있다. 이게 어떻게 동작하고 언제 쓰이는지. 근데 이게 말로 표현이 안된다. 와 이러면 내가 잘 알고 있다고 말할 수 있나?이러한 의문이 들어 알고 있는 것도 글로, 말로 재정리해보는 시간을 가지기로 하였다.일단 Transformer가 뭐더라?Transformer는 기존의 seq2seq의 인코더-디코더를 구조를 따르면서도 어텐션 메커니즘만을 사용하여 구현된 모델이다. 기존의 seq2seq 모델은 인코더-디코더 구조로 이루어져 있으며, RNN(순환신경망)을 사용한다. 인코더에서 순차적으로 입력 텍스트에 대한 액기..

회사에서 기술 세미나를 준비하면서 아주 세세하게, 기존의 논문 리뷰와 다른 형식으로 논문 리뷰 글을 작성해보았습니다. 해당 논문은 요즘 주목받고 있는 OpenAI의 o1, o3, Deepseek의 r1과 같이 추론 모델의 근간이 된 Test-Time Scaling을 LLM에서 실험해본 논문으로, 개인적으로 "모델이 더 오래 생각한다니.."하고 흥미롭게 읽었습니다. 게다가 젠슨 황이 pre-training, post-training을 이은 Scaling Laws의 새로운 단계는 Test-Time Scaling이라고 언급한 것을 보았는데, 그것 덕분에 Test-Time Scaling이 추론 모델에 얼마나 큰 반향을 불러일으킬지에 집중하면서 읽을 수 있었습니다. Background먼저 논문에 등장하는 tes..

저번에 Knowledge distillation에 대해서 공부했었는데 LLM이라는 거대 모델에서는 어떻게 활용할 수 있는지 알아보았다. 참고로 이 논문 리뷰를 읽기 전 아래의 Knowledge distillation 정리글을 읽으면 더 잘 이해가 될 것이다. https://soyoonblog.tistory.com/entry/Knowledge-Distillation-%EB%AC%B4%EC%97%87%EC%9D%B8%EA%B0%80 Knowledge Distillation, 무엇인가?최근 큰 LLM들을 돌리며 모델 메모리, 연산 시간 등의 자원들을 신경쓰게 되었고, 큰 모델의 성능을 최대한 지키면서 모델 크기는 크게 축소시킬 수 있는 Knowledge Distillation에 대해 관심이 생겨서soyoonb..

티스토리툴바