본문 바로가기

AI#AI#LLM#Optimization조회 39

Quantization란?양자화

정의

모델 가중치의 정밀도를 낮춰(예: 16bit → 4bit) 메모리·속도를 개선하는 기법. 로컬 LLM 구동의 핵심.

다른 표현양자화LLM 양자화

Quantization이란?

모델 가중치의 수치 정밀도를 줄여 메모리 사용량과 추론 속도를 개선하는 기법이다.

주요 방식

FP16 / BF16 — 16bit, 학습·추론 기본
INT8 — 8bit, 절반 메모리, 소폭 품질 하락
INT4 / Q4 — 4bit, 1/4 메모리, 로컬 실행 가능
GPTQ, AWQ, GGUF — 대표 양자화 포맷

실무

Llama 70B 원본은 140GB지만 Q4 양자화하면 약 35~40GB로 떨어져 24GB×2 GPU에서 구동 가능. Ollama, llama.cpp가 대표 구동 도구.

📘 관련 기술노트

전체 보기 →

AILlama.cpp 로컬 LLM 최적화 — 양자화와 GGUF 포맷

🔗 함께 보면 좋은 용어

멀티 에이전트 오케스트레이션

Supervisor·Hierarchy·Network 패턴으로 여러 에이전트 조율.

청킹 전략 상세

고정·문장·계층·의미론적·Agentic 청킹. RAG 품질의 결정.

추론 지연 최적화

TTFT·TPS·Batching·KV Cache·Speculative·Quantization 조합.

Agent-to-Agent Protocol

에이전트 간 통신 표준. Google이 제안. MCP와 상호 보완.

전체 예측 중 맞춘 비율. 클래스 불균형 시 오해를 유발할 수 있음.

Activation Function

신경망 뉴런의 비선형 변환. ReLU·GELU·Sigmoid·Tanh.