핵심 요약
NVIDIA Project DIGITS(GB10 Grace Blackwell, 128GB UMA, 1 PFLOPS FP4) 6개월 운영. 200B 모델(4-bit) 로컬 추론, 70B fine-tune. 클라우드 GPU 월 $4K 대신 일시불 $3K + 전기. 사후.
1. 사양
- Grace Blackwell GB10, ARM CPU 20 core + Blackwell GPU
- Unified memory 128GB(CPU·GPU 공유)
- 1 PFLOPS FP4, 500 TFLOPS FP16
- 소비 전력 약 240W peak, 책상 사용 가능
2. 실행 가능한 모델
- Llama 4 70B(4-bit) — 단독 추론, 26 tok/s
- DeepSeek V3 200B(4-bit) — 슬라이딩 윈도우, 12 tok/s
- Qwen 2.5 32B 풀 precision 학습 PoC
3. 비용 비교
| 항목 | DIGITS | Cloud H100 | |
|---|---|---|---|
| 초기 | $2,990 | 0 | |
| 월 전기 | $18 | - | |
| 월 클라우드(8h/day) | - | $3,800 | |
| 1년 합 | $3,210 | $45,600 |
4. 적합한 워크로드
개인 연구·PoC·민감 데이터 fine-tune. production 서빙은 불가(가용성·확장). 큰 학습은 cluster, 작은 LoRA는 DIGITS 최적.
5. 함정
- CUDA 호환 — Grace ARM이라 일부 binary 미지원, 컨테이너 이미지 확인
- 냉각 — 책상 위에서 90도 도달 가능, 환기 확보
- 소프트웨어 stack — NIM·vLLM 둘 다 native ARM, PyTorch 2.5+ 권장
- 데이터 — 사내 데이터 들고 와도 권한 정책, 회사 디바이스로 등록

댓글 0