본문 바로가기
AI#AI#LLM조회 2

Inference란?추론

정의

학습된 모델이 새 입력에 대해 출력을 생성하는 과정. 학습(training)과 구분되는 운영 단계.

다른 표현추론LLM 추론Inference

Inference란?

훈련된 모델의 파라미터를 그대로 두고 새 입력에 대한 출력을 계산하는 단계다. 프로덕션에서 실제 비용이 발생하는 영역.

최적화 기법

  • Quantization — 32bit → 8bit/4bit로 축소
  • KV Cache — 과거 토큰 재계산 방지
  • Speculative Decoding — 작은 모델로 추측 후 큰 모델로 검증
  • Batching — 여러 요청 묶어 GPU 활용률 올림

인프라 선택

vLLM, TGI, SGLang, TensorRT-LLM 등이 대표 서빙 엔진.

📘 관련 기술노트

전체 보기 →

🔗 함께 보면 좋은 용어

AI 전체 →