본문 바로가기

AI#AI#LLM조회 36

Inference란?추론

정의

학습된 모델이 새 입력에 대해 출력을 생성하는 과정. 학습(training)과 구분되는 운영 단계.

다른 표현추론LLM 추론Inference

Inference란?

훈련된 모델의 파라미터를 그대로 두고 새 입력에 대한 출력을 계산하는 단계다. 프로덕션에서 실제 비용이 발생하는 영역.

최적화 기법

Quantization — 32bit → 8bit/4bit로 축소
KV Cache — 과거 토큰 재계산 방지
Speculative Decoding — 작은 모델로 추측 후 큰 모델로 검증
Batching — 여러 요청 묶어 GPU 활용률 올림

인프라 선택

vLLM, TGI, SGLang, TensorRT-LLM 등이 대표 서빙 엔진.

📘 관련 기술노트

전체 보기 →

AIClaude Extended Thinking — 추론 과정 투명성 확보

AILLM 추론 비용 최적화 — 캐싱·배치·라우팅으로 70% 절감하는 7가지 기법

FrontendTypeScript 5.1 새 기능 — 함수 반환 타입 추론 개선

🔗 함께 보면 좋은 용어

멀티 에이전트 오케스트레이션

Supervisor·Hierarchy·Network 패턴으로 여러 에이전트 조율.

청킹 전략 상세

고정·문장·계층·의미론적·Agentic 청킹. RAG 품질의 결정.

추론 지연 최적화

TTFT·TPS·Batching·KV Cache·Speculative·Quantization 조합.

Agent-to-Agent Protocol

에이전트 간 통신 표준. Google이 제안. MCP와 상호 보완.

전체 예측 중 맞춘 비율. 클래스 불균형 시 오해를 유발할 수 있음.

Activation Function

신경망 뉴런의 비선형 변환. ReLU·GELU·Sigmoid·Tanh.