Quantization이란?
모델 가중치의 수치 정밀도를 줄여 메모리 사용량과 추론 속도를 개선하는 기법이다.
주요 방식
- FP16 / BF16 — 16bit, 학습·추론 기본
- INT8 — 8bit, 절반 메모리, 소폭 품질 하락
- INT4 / Q4 — 4bit, 1/4 메모리, 로컬 실행 가능
- GPTQ, AWQ, GGUF — 대표 양자화 포맷
실무
Llama 70B 원본은 140GB지만 Q4 양자화하면 약 35~40GB로 떨어져 24GB×2 GPU에서 구동 가능. Ollama, llama.cpp가 대표 구동 도구.