vLLM이란?
LLM 서빙의 처리량·지연을 극적으로 개선한 오픈소스 추론 서버다.
핵심 기술
- PagedAttention — KV cache를 페이지 단위 관리
- Continuous batching — 요청 단위 동적 묶음
- OpenAI 호환 API
Hugging Face TGI, SGLang과 경쟁.
UC Berkeley의 고성능 LLM 추론 엔진. PagedAttention으로 메모리·처리량 극대화.
LLM 서빙의 처리량·지연을 극적으로 개선한 오픈소스 추론 서버다.
Hugging Face TGI, SGLang과 경쟁.