Ollama란?
복잡한 모델 로딩·양자화 없이 한 줄 명령으로 로컬 LLM을 구동하는 도구다. "LLM판 Docker"로 불린다.
사용법
brew install ollama
ollama run llama3
ollama run gemma
ollama pull qwen-coder
# REST API
curl http://localhost:11434/api/generate -d '{...}'
특징
- GGUF 포맷 기반 (llama.cpp 백엔드)
- Metal(Mac)·CUDA(NVIDIA) 자동 가속
- OpenAI 호환 API 제공
- 모델 라이브러리에 Llama·Mistral·Gemma·Qwen 등 수백 개
한계
대형 모델(70B+)은 충분한 RAM·VRAM 필요. 상용 Claude/GPT 수준 품질은 아님.