본문 바로가기
AI#AI#LLM#Optimization조회 2

Quantization란?양자화

정의

모델 가중치의 정밀도를 낮춰(예: 16bit → 4bit) 메모리·속도를 개선하는 기법. 로컬 LLM 구동의 핵심.

다른 표현양자화LLM 양자화

Quantization이란?

모델 가중치의 수치 정밀도를 줄여 메모리 사용량과 추론 속도를 개선하는 기법이다.

주요 방식

  • FP16 / BF16 — 16bit, 학습·추론 기본
  • INT8 — 8bit, 절반 메모리, 소폭 품질 하락
  • INT4 / Q4 — 4bit, 1/4 메모리, 로컬 실행 가능
  • GPTQ, AWQ, GGUF — 대표 양자화 포맷

실무

Llama 70B 원본은 140GB지만 Q4 양자화하면 약 35~40GB로 떨어져 24GB×2 GPU에서 구동 가능. Ollama, llama.cpp가 대표 구동 도구.

📘 관련 기술노트

전체 보기 →

🔗 함께 보면 좋은 용어

AI 전체 →