NVIDIA Project DIGITS (GB10) 받아서 Llama 5 70B 4-bit를 Ollama로 추론합니다. 광고는 26 tok/s인데 실측 7 tok/s.
$ ollama run llama-5:70b-q4_K_M
>>> 한국 AI 산업에 대해 설명해줘
[7.2 tok/s]
환경
- Project DIGITS GB10, 128GB UMA
- Ubuntu 24.04 (Grace ARM)
- Ollama 0.6.4
- nvtop 모니터링 — GPU 활용 32% 평균
GPU 활용도가 1/3밖에 안 됩니다. Ollama가 ARM 최적화 안 된 건가요?
댓글 0