본문 바로가기
AI#AI#Inference조회 19

vLLM란?

정의

UC Berkeley의 고성능 LLM 추론 엔진. PagedAttention으로 메모리·처리량 극대화.

vLLM이란?

LLM 서빙의 처리량·지연을 극적으로 개선한 오픈소스 추론 서버다.

핵심 기술

  • PagedAttention — KV cache를 페이지 단위 관리
  • Continuous batching — 요청 단위 동적 묶음
  • OpenAI 호환 API

Hugging Face TGI, SGLang과 경쟁.

🔗 함께 보면 좋은 용어

AI 전체 →