vLLM 1.0 vs SGLang vs TGI — LLM 추론 서버 실측 비교 | 기술노트

핵심 요약

vLLM 1.0(PagedAttention v2 + CUDA graph), SGLang(RadixAttention + 컴파일 그래프), TGI(Hugging Face 공식)는 2026년 LLM 추론 서버 3대장. Llama 3.3 70B 실측에서 단순 처리량은 vLLM, 프롬프트 캐싱 많은 멀티턴은 SGLang, 운영 안정성은 TGI가 강점. 단일 정답 없음. 워크로드별로 골라야 한다.

1. 핵심 알고리즘 차이

vLLM PagedAttention: KV 캐시를 OS 페이지처럼 블록 단위 관리, 메모리 단편화 제거
SGLang RadixAttention: 공통 프롬프트 접두사를 트리로 공유, 시스템 프롬프트 긴 워크로드에 강함
TGI: Flash Attention 2 + continuous batching, 안정 우선, 기능은 보수적

2. 벤치마크 환경

GPU: 8x H100 80GB SXM5
모델: Llama 3.3 70B Instruct (BF16)
병렬: TP=8
요청: 입력 평균 512 / 출력 평균 256 토큰, 동시 64
버전: vLLM 1.0, SGLang 0.4.5, TGI 3.0

3. 처리량 — 무차별 스트레스

지표	vLLM 1.0	SGLang	TGI 3.0
총 출력 토큰/s	11,840	10,920	9,210
TTFT p50 ms	184	168	228
TTFT p99 ms	612	540	780
토큰간 지연 p50 ms	26	28	32
GPU 메모리 사용	74GB/80	71GB	68GB

4. 프롬프트 캐싱 워크로드 — SGLang의 강점

동일 시스템 프롬프트 8KB + 사용자 메시지가 매번 다른 챗봇 시나리오.

지표	vLLM (prefix cache 켬)	SGLang RadixAttention	TGI
TTFT p50 ms	78	42	184
캐시 적중률	91%	97%	없음
처리량 토큰/s	14,200	16,800	9,210

5. vLLM 1.0 셋업

pip install vllm==1.0.0

python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-3.3-70B-Instruct \
  --tensor-parallel-size 8 \
  --enable-prefix-caching \
  --max-model-len 32768 \
  --quantization fp8 \
  --gpu-memory-utilization 0.92

6. SGLang — 구조화 출력 강점

python -m sglang.launch_server \
  --model-path meta-llama/Llama-3.3-70B-Instruct \
  --tp 8 \
  --enable-radix-cache

# 프론트엔드 DSL — JSON 강제 생성
import sglang as sgl

@sgl.function
def extract(s, text):
    s += "추출: " + text + "\n"
    s += sgl.gen("name", regex=r"[가-힣]{2,4}") + "\n"
    s += "나이: " + sgl.gen("age", regex=r"\d{1,3}")

7. 양자화 지원

양자화	vLLM	SGLang	TGI
FP8 (E4M3)	O	O	O
GPTQ 4bit	O	O	O
AWQ 4bit	O	O	O
FP4 (Blackwell)	O	실험	X

8. 워크로드별 결정 가이드

워크로드	추천	이유
일반 챗 API	vLLM	처리량·안정성 균형
긴 시스템 프롬프트 + RAG	SGLang	RadixAttention 캐시 적중률
구조화 JSON 추출 대량	SGLang	DSL 네이티브
운영팀이 작거나 SRE 부담 낮음	TGI	관측성·안정성
Blackwell FP4 활용	vLLM	가장 먼저 지원

참고

github.com/vllm-project/vllm
github.com/sgl-project/sglang
github.com/huggingface/text-generation-inference