본문 바로가기

AI#AI#LLM#Local조회 33

Ollama란?

정의

로컬에서 LLM을 Docker처럼 구동하는 도구. <code>ollama run llama3</code> 한 줄로 시작. Mac·Linux·Windows 지원.

다른 표현올라마

Ollama란?

복잡한 모델 로딩·양자화 없이 한 줄 명령으로 로컬 LLM을 구동하는 도구다. "LLM판 Docker"로 불린다.

사용법

brew install ollama
ollama run llama3
ollama run gemma
ollama pull qwen-coder

# REST API
curl http://localhost:11434/api/generate -d '{...}'

특징

GGUF 포맷 기반 (llama.cpp 백엔드)
Metal(Mac)·CUDA(NVIDIA) 자동 가속
OpenAI 호환 API 제공
모델 라이브러리에 Llama·Mistral·Gemma·Qwen 등 수백 개

한계

대형 모델(70B+)은 충분한 RAM·VRAM 필요. 상용 Claude/GPT 수준 품질은 아님.

📘 관련 기술노트

전체 보기 →

AIOllama로 로컬 LLM 실행하기 — LLaMA, Mistral, Phi

AIOllama 로컬 LLM 실행 — Llama 2·Mistral·Phi

AIGemma 4 완벽 가이드 — Ollama로 설치부터 실전 활용까지

🔗 함께 보면 좋은 용어

멀티 에이전트 오케스트레이션

Supervisor·Hierarchy·Network 패턴으로 여러 에이전트 조율.

청킹 전략 상세

고정·문장·계층·의미론적·Agentic 청킹. RAG 품질의 결정.

추론 지연 최적화

TTFT·TPS·Batching·KV Cache·Speculative·Quantization 조합.

Agent-to-Agent Protocol

에이전트 간 통신 표준. Google이 제안. MCP와 상호 보완.

전체 예측 중 맞춘 비율. 클래스 불균형 시 오해를 유발할 수 있음.

Activation Function

신경망 뉴런의 비선형 변환. ReLU·GELU·Sigmoid·Tanh.