Inference란?
훈련된 모델의 파라미터를 그대로 두고 새 입력에 대한 출력을 계산하는 단계다. 프로덕션에서 실제 비용이 발생하는 영역.
최적화 기법
- Quantization — 32bit → 8bit/4bit로 축소
- KV Cache — 과거 토큰 재계산 방지
- Speculative Decoding — 작은 모델로 추측 후 큰 모델로 검증
- Batching — 여러 요청 묶어 GPU 활용률 올림
인프라 선택
vLLM, TGI, SGLang, TensorRT-LLM 등이 대표 서빙 엔진.