본문 바로가기

AI#AI#Inference조회 37

vLLM란?

정의

UC Berkeley의 고성능 LLM 추론 엔진. PagedAttention으로 메모리·처리량 극대화.

vLLM이란?

LLM 서빙의 처리량·지연을 극적으로 개선한 오픈소스 추론 서버다.

핵심 기술

PagedAttention — KV cache를 페이지 단위 관리
Continuous batching — 요청 단위 동적 묶음
OpenAI 호환 API

Hugging Face TGI, SGLang과 경쟁.

📘 관련 기술노트

전체 보기 →

AIvLLM 1.0 vs SGLang vs TGI — LLM 추론 서버 실측 비교

AIvLLM 1.1 LoRA 핫스왑 — 멀티 테넌트 LLM 서빙, 비용 50%↓

🔗 함께 보면 좋은 용어

멀티 에이전트 오케스트레이션

Supervisor·Hierarchy·Network 패턴으로 여러 에이전트 조율.

청킹 전략 상세

고정·문장·계층·의미론적·Agentic 청킹. RAG 품질의 결정.

추론 지연 최적화

TTFT·TPS·Batching·KV Cache·Speculative·Quantization 조합.

Agent-to-Agent Protocol

에이전트 간 통신 표준. Google이 제안. MCP와 상호 보완.

전체 예측 중 맞춘 비율. 클래스 불균형 시 오해를 유발할 수 있음.

Activation Function

신경망 뉴런의 비선형 변환. ReLU·GELU·Sigmoid·Tanh.