NVIDIA Project DIGITS — Ollama로 Llama 5 70B 추론하는데 응답이 7 tok/s밖에 안 됩니다

Question

NVIDIA Project DIGITS (GB10) 받아서 Llama 5 70B 4-bit를 Ollama로 추론합니다. 광고는 26 tok/s인데 실측 7 tok/s.

$ ollama run llama-5:70b-q4_K_M
>>> 한국 AI 산업에 대해 설명해줘
[7.2 tok/s]

환경

Project DIGITS GB10, 128GB UMA
Ubuntu 24.04 (Grace ARM)
Ollama 0.6.4
nvtop 모니터링 — GPU 활용 32% 평균

GPU 활용도가 1/3밖에 안 됩니다. Ollama가 ARM 최적화 안 된 건가요?

김영삼 · Accepted Answer

네, Ollama가 ARM/Grace 환경 최적화 미흡합니다. DIGITS에서 Ollama 대신 NVIDIA NIM 또는 vLLM 사용 권장. 1. vLLM 추천 — 사실상 표준 # vLLM 설치 (ARM 빌드) pip install vllm # 실행 python -m vllm.entrypoints.openai.api_server \ --model meta-llama/Llama-5-70B-Instruct-Q4 \ --quantization awq \ --tensor-parallel-size 1 \ --max-model-len 8192 실측 — 26 tok/s 달성 (광고 수치 일치). 8B 모델은 80 tok/s+. 2. NVIDIA NIM container docker run --gpus all \ --shm-size=16g \ nvcr.io/nim/meta/llama-5-70b:latest NIM이 DIGITS GB10 최적화. vLLM + NVIDIA 자체 튜닝. 추론 28~3

데이터사이언스현 · Answer

llama.cpp의 metal-vs-cuda-vs-ggml backend 선택이 ARM에서 까다롭습니다. DIGITS면 Tensor Core 최적화된 vLLM이 답.

댓글 0