GPU용 후학습 양자화 알고리즘. 4bit로 성능 손실 최소.
Hessian 기반 가중치 재구성. 4bit 양자화로도 거의 손실 없이 추론. Hugging Face·vLLM·SGLang 지원.