본문 바로가기
AI2026년 5월 15일4분 읽기

vLLM 1.0 vs SGLang vs TGI — LLM 추론 서버 실측 비교

YS
김영삼
조회 1093
vLLM 1.0 vs SGLang vs TGI — LLM 추론 서버 실측 비교

핵심 요약

vLLM 1.0(PagedAttention v2 + CUDA graph), SGLang(RadixAttention + 컴파일 그래프), TGI(Hugging Face 공식)는 2026년 LLM 추론 서버 3대장. Llama 3.3 70B 실측에서 단순 처리량은 vLLM, 프롬프트 캐싱 많은 멀티턴은 SGLang, 운영 안정성은 TGI가 강점. 단일 정답 없음. 워크로드별로 골라야 한다.

1. 핵심 알고리즘 차이

  • vLLM PagedAttention: KV 캐시를 OS 페이지처럼 블록 단위 관리, 메모리 단편화 제거
  • SGLang RadixAttention: 공통 프롬프트 접두사를 트리로 공유, 시스템 프롬프트 긴 워크로드에 강함
  • TGI: Flash Attention 2 + continuous batching, 안정 우선, 기능은 보수적

2. 벤치마크 환경

  • GPU: 8x H100 80GB SXM5
  • 모델: Llama 3.3 70B Instruct (BF16)
  • 병렬: TP=8
  • 요청: 입력 평균 512 / 출력 평균 256 토큰, 동시 64
  • 버전: vLLM 1.0, SGLang 0.4.5, TGI 3.0

3. 처리량 — 무차별 스트레스

지표vLLM 1.0SGLangTGI 3.0
총 출력 토큰/s11,84010,9209,210
TTFT p50 ms184168228
TTFT p99 ms612540780
토큰간 지연 p50 ms262832
GPU 메모리 사용74GB/8071GB68GB

4. 프롬프트 캐싱 워크로드 — SGLang의 강점

동일 시스템 프롬프트 8KB + 사용자 메시지가 매번 다른 챗봇 시나리오.

지표vLLM (prefix cache 켬)SGLang RadixAttentionTGI
TTFT p50 ms7842184
캐시 적중률91%97%없음
처리량 토큰/s14,20016,8009,210

5. vLLM 1.0 셋업

pip install vllm==1.0.0

python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-3.3-70B-Instruct \
  --tensor-parallel-size 8 \
  --enable-prefix-caching \
  --max-model-len 32768 \
  --quantization fp8 \
  --gpu-memory-utilization 0.92

6. SGLang — 구조화 출력 강점

python -m sglang.launch_server \
  --model-path meta-llama/Llama-3.3-70B-Instruct \
  --tp 8 \
  --enable-radix-cache

# 프론트엔드 DSL — JSON 강제 생성
import sglang as sgl

@sgl.function
def extract(s, text):
    s += "추출: " + text + "\n"
    s += sgl.gen("name", regex=r"[가-힣]{2,4}") + "\n"
    s += "나이: " + sgl.gen("age", regex=r"\d{1,3}")

7. 양자화 지원

양자화vLLMSGLangTGI
FP8 (E4M3)OOO
GPTQ 4bitOOO
AWQ 4bitOOO
FP4 (Blackwell)O실험X

8. 워크로드별 결정 가이드

워크로드추천이유
일반 챗 APIvLLM처리량·안정성 균형
긴 시스템 프롬프트 + RAGSGLangRadixAttention 캐시 적중률
구조화 JSON 추출 대량SGLangDSL 네이티브
운영팀이 작거나 SRE 부담 낮음TGI관측성·안정성
Blackwell FP4 활용vLLM가장 먼저 지원

참고

  • github.com/vllm-project/vllm
  • github.com/sgl-project/sglang
  • github.com/huggingface/text-generation-inference

댓글 0

아직 댓글이 없습니다.
Ctrl+Enter로 등록