핵심 요약
vLLM 1.0(PagedAttention v2 + CUDA graph), SGLang(RadixAttention + 컴파일 그래프), TGI(Hugging Face 공식)는 2026년 LLM 추론 서버 3대장. Llama 3.3 70B 실측에서 단순 처리량은 vLLM, 프롬프트 캐싱 많은 멀티턴은 SGLang, 운영 안정성은 TGI가 강점. 단일 정답 없음. 워크로드별로 골라야 한다.
1. 핵심 알고리즘 차이
- vLLM PagedAttention: KV 캐시를 OS 페이지처럼 블록 단위 관리, 메모리 단편화 제거
- SGLang RadixAttention: 공통 프롬프트 접두사를 트리로 공유, 시스템 프롬프트 긴 워크로드에 강함
- TGI: Flash Attention 2 + continuous batching, 안정 우선, 기능은 보수적
2. 벤치마크 환경
- GPU: 8x H100 80GB SXM5
- 모델: Llama 3.3 70B Instruct (BF16)
- 병렬: TP=8
- 요청: 입력 평균 512 / 출력 평균 256 토큰, 동시 64
- 버전: vLLM 1.0, SGLang 0.4.5, TGI 3.0
3. 처리량 — 무차별 스트레스
| 지표 | vLLM 1.0 | SGLang | TGI 3.0 |
| 총 출력 토큰/s | 11,840 | 10,920 | 9,210 |
| TTFT p50 ms | 184 | 168 | 228 |
| TTFT p99 ms | 612 | 540 | 780 |
| 토큰간 지연 p50 ms | 26 | 28 | 32 |
| GPU 메모리 사용 | 74GB/80 | 71GB | 68GB |
4. 프롬프트 캐싱 워크로드 — SGLang의 강점
동일 시스템 프롬프트 8KB + 사용자 메시지가 매번 다른 챗봇 시나리오.
| 지표 | vLLM (prefix cache 켬) | SGLang RadixAttention | TGI |
| TTFT p50 ms | 78 | 42 | 184 |
| 캐시 적중률 | 91% | 97% | 없음 |
| 처리량 토큰/s | 14,200 | 16,800 | 9,210 |
5. vLLM 1.0 셋업
pip install vllm==1.0.0
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-3.3-70B-Instruct \
--tensor-parallel-size 8 \
--enable-prefix-caching \
--max-model-len 32768 \
--quantization fp8 \
--gpu-memory-utilization 0.92
6. SGLang — 구조화 출력 강점
python -m sglang.launch_server \
--model-path meta-llama/Llama-3.3-70B-Instruct \
--tp 8 \
--enable-radix-cache
# 프론트엔드 DSL — JSON 강제 생성
import sglang as sgl
@sgl.function
def extract(s, text):
s += "추출: " + text + "\n"
s += sgl.gen("name", regex=r"[가-힣]{2,4}") + "\n"
s += "나이: " + sgl.gen("age", regex=r"\d{1,3}")
7. 양자화 지원
| 양자화 | vLLM | SGLang | TGI |
| FP8 (E4M3) | O | O | O |
| GPTQ 4bit | O | O | O |
| AWQ 4bit | O | O | O |
| FP4 (Blackwell) | O | 실험 | X |
8. 워크로드별 결정 가이드
| 워크로드 | 추천 | 이유 |
| 일반 챗 API | vLLM | 처리량·안정성 균형 |
| 긴 시스템 프롬프트 + RAG | SGLang | RadixAttention 캐시 적중률 |
| 구조화 JSON 추출 대량 | SGLang | DSL 네이티브 |
| 운영팀이 작거나 SRE 부담 낮음 | TGI | 관측성·안정성 |
| Blackwell FP4 활용 | vLLM | 가장 먼저 지원 |
참고
- github.com/vllm-project/vllm
- github.com/sgl-project/sglang
- github.com/huggingface/text-generation-inference
댓글 0