본문 바로가기
Q&A2026년 6월 2일1분 읽기

NVIDIA Project DIGITS — Ollama로 Llama 5 70B 추론하는데 응답이 7 tok/s밖에 안 됩니다

임도준
조회 521댓글 2

NVIDIA Project DIGITS (GB10) 받아서 Llama 5 70B 4-bit를 Ollama로 추론합니다. 광고는 26 tok/s인데 실측 7 tok/s.

$ ollama run llama-5:70b-q4_K_M
>>> 한국 AI 산업에 대해 설명해줘
[7.2 tok/s]

환경

  • Project DIGITS GB10, 128GB UMA
  • Ubuntu 24.04 (Grace ARM)
  • Ollama 0.6.4
  • nvtop 모니터링 — GPU 활용 32% 평균

GPU 활용도가 1/3밖에 안 됩니다. Ollama가 ARM 최적화 안 된 건가요?

댓글 0

아직 댓글이 없습니다.
Ctrl+Enter로 등록