Gemma 4란
Gemma 4는 Google DeepMind가 공개한 최신 오픈소스 LLM입니다. Gemini 아키텍처를 기반으로 하면서 로컬 실행에 최적화된 것이 특징입니다.
직접 2주간 실무에서 사용해본 결론부터 말씀드리면 — 속도, 안정성, 한국어 성능 모두 만족스럽습니다. 특히 Ollama와의 조합이 뛰어나서 설치부터 실행까지 5분이면 충분합니다.
Ollama 설치
Ollama는 로컬 LLM을 가장 쉽게 실행할 수 있는 도구입니다. Docker 없이 단독으로 동작하며, 모델 다운로드부터 API 서빙까지 한 번에 처리합니다.
macOS / Linux
# Ollama 설치 (한 줄)
curl -fsSL https://ollama.com/install.sh | sh
# 설치 확인
ollama --version
Windows
ollama.com/download에서 설치 파일을 다운로드하여 실행합니다.
Docker (서버 환경)
# GPU 지원 Docker 실행
docker run -d --gpus all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
# CPU만 사용
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
Gemma 4 모델 다운로드 및 실행
# Gemma 4 모델 다운로드 + 실행 (한 줄)
ollama run gemma4
# 특정 크기 모델 선택
ollama run gemma4:2b # 2B 파라미터 (가벼움, 노트북 OK)
ollama run gemma4:9b # 9B 파라미터 (균형)
ollama run gemma4:27b # 27B 파라미터 (고성능, GPU 권장)
첫 실행 시 모델 다운로드가 진행됩니다. 2B 모델은 약 1.5GB, 9B는 약 5GB, 27B는 약 16GB입니다.
속도 테스트 결과
실제 사용 환경에서 측정한 토큰 생성 속도입니다.
테스트 환경
| 환경 | CPU/GPU | RAM |
|---|---|---|
| MacBook Pro M3 | M3 Pro 12코어 | 36GB |
| Linux 서버 | RTX 4090 | 64GB |
| 일반 노트북 | i7-13700H | 32GB |
결과 (tokens/sec)
| 모델 | M3 Pro | RTX 4090 | i7 CPU |
|---|---|---|---|
| gemma4:2b | 85 t/s | 120+ t/s | 35 t/s |
| gemma4:9b | 32 t/s | 80 t/s | 12 t/s |
| gemma4:27b | 12 t/s | 45 t/s | 3 t/s |
체감 속도: 9B 모델 기준 M3 MacBook에서 거의 실시간에 가깝게 응답합니다. 2B 모델은 일반 노트북에서도 충분히 빠릅니다.
안정성 테스트
2주간 실무에서 사용하면서 체감한 안정성입니다.
- 긴 대화 유지: 50턴 이상의 대화에서도 맥락을 잃지 않고 일관된 응답을 생성합니다
- 할루시네이션: 이전 세대(Gemma 2) 대비 체감 50% 이상 감소. "모르겠습니다"라고 정직하게 답하는 경우가 늘었습니다
- 메모리 안정성: 장시간 실행해도 메모리 누수 없이 안정적으로 동작합니다
- 에러 발생률: 2주간 약 500회 질의 중 비정상 응답 0건
한국어 성능
한국어 성능이 크게 개선되었습니다. 이전 세대에서는 영어 대비 한국어 품질이 눈에 띄게 낮았지만, Gemma 4에서는 그 격차가 많이 줄었습니다.
# 한국어 테스트
ollama run gemma4:9b "PostgreSQL에서 인덱스를 언제 걸어야 하는지 설명해줘"
기술 문서 번역, 코드 주석 한글화, 한국어 Q&A 답변 생성 등에서 실용적인 수준의 결과를 보여줍니다.
API 서버로 활용하기
Ollama는 설치만 하면 자동으로 REST API 서버가 실행됩니다 (기본 포트: 11434).
curl로 직접 호출
# 텍스트 생성
curl http://localhost:11434/api/generate -d '{
"model": "gemma4:9b",
"prompt": "Docker Compose에서 healthcheck 설정하는 방법을 알려줘",
"stream": false
}'
# 채팅 형식
curl http://localhost:11434/api/chat -d '{
"model": "gemma4:9b",
"messages": [
{"role": "user", "content": "React useEffect에서 cleanup 함수는 언제 실행되나요?"}
],
"stream": false
}'
Python에서 사용
import requests
def ask_gemma(question):
response = requests.post("http://localhost:11434/api/generate", json={
"model": "gemma4:9b",
"prompt": question,
"stream": False
})
return response.json()["response"]
# 사용 예시
answer = ask_gemma("FastAPI에서 미들웨어 작성하는 방법을 알려줘")
print(answer)
Node.js에서 사용
async function askGemma(question) {
const res = await fetch("http://localhost:11434/api/generate", {
method: "POST",
headers: { "Content-Type": "application/json" },
body: JSON.stringify({
model: "gemma4:9b",
prompt: question,
stream: false
})
})
const data = await res.json()
return data.response
}
// 사용 예시
const answer = await askGemma("TypeScript에서 제네릭 제약 조건 패턴 설명해줘")
console.log(answer)
LangChain 연동
from langchain_community.llms import Ollama
llm = Ollama(model="gemma4:9b")
response = llm.invoke("RAG 시스템에서 청킹 전략을 설명해줘")
print(response)
실전 활용 사례
1. 코드 리뷰 자동화
Git diff를 Gemma 4에 넘겨서 코드 리뷰를 자동화할 수 있습니다. API 비용이 0원이므로 모든 커밋에 적용해도 부담이 없습니다.
2. 기술 문서 초안 작성
README, API 문서, 변경 로그 등의 초안을 빠르게 생성할 수 있습니다. 한국어 성능이 좋아져서 번역 작업에도 활용 가능합니다.
3. 로컬 RAG 시스템
사내 문서를 벡터 DB에 저장하고 Gemma 4로 질의하는 RAG 시스템을 구축할 수 있습니다. 데이터가 외부로 나가지 않으므로 보안에 민감한 환경에 적합합니다.
4. 디버깅 어시스턴트
에러 로그를 붙여넣으면 원인 분석과 해결 방법을 제시합니다. 간단한 버그는 직접 수정 코드까지 생성해줍니다.
모델 크기별 선택 가이드
| 모델 | 추천 환경 | 용도 |
|---|---|---|
| gemma4:2b | 노트북, 저사양 서버 | 간단한 Q&A, 코드 자동완성, 빠른 프로토타이핑 |
| gemma4:9b | M1+ Mac, GPU 서버 | 코드 리뷰, 문서 작성, RAG, 일반 개발 보조 (가장 추천) |
| gemma4:27b | GPU 서버 (16GB+ VRAM) | 복잡한 추론, 대규모 코드 분석, 고품질 문서 생성 |
개인적 추천: 대부분의 개발자에게 9B 모델이 최적입니다. 속도와 품질의 균형이 가장 좋습니다.
GPT-4 / Claude와 비교
| 항목 | Gemma 4 (9B) | GPT-4 | Claude 4.6 |
|---|---|---|---|
| 비용 | 무료 | $30/1M tokens | $15/1M tokens |
| 속도 | 32 t/s (로컬) | ~50 t/s (API) | ~60 t/s (API) |
| 프라이버시 | 완전 로컬 | 클라우드 | 클라우드 |
| 한국어 | 좋음 | 매우 좋음 | 매우 좋음 |
| 코딩 | 좋음 | 매우 좋음 | 최고 |
| 오프라인 | 가능 | 불가 | 불가 |
복잡한 추론이나 대규모 프로젝트는 Claude/GPT가 우세하지만, 일상적인 개발 보조, 보안이 중요한 환경, API 비용이 부담되는 경우에는 Gemma 4가 최적의 선택입니다.
유용한 설정 팁
시스템 프롬프트 설정
# Modelfile 생성
cat > Modelfile << 'EOF'
FROM gemma4:9b
SYSTEM "당신은 10년 경력의 시니어 풀스택 개발자입니다. 한국어로 답변하며, 코드 예제를 반드시 포함합니다. 답변은 간결하고 실전적이어야 합니다."
PARAMETER temperature 0.3
PARAMETER num_ctx 8192
EOF
# 커스텀 모델 생성
ollama create my-dev-assistant -f Modelfile
# 사용
ollama run my-dev-assistant
GPU 메모리 관리
# 사용하지 않는 모델 메모리에서 해제
ollama stop gemma4:27b
# 모델 목록 확인
ollama list
# 모델 삭제
ollama rm gemma4:2b
자동 시작 설정 (Linux)
# systemd 서비스로 등록 (부팅 시 자동 시작)
sudo systemctl enable ollama
sudo systemctl start ollama
# 상태 확인
sudo systemctl status ollama
주의할 점
- 첫 실행 시 모델 다운로드 시간: 네트워크 속도에 따라 수 분에서 수십 분 소요될 수 있습니다
- VRAM 부족: 27B 모델은 최소 16GB VRAM이 필요합니다. 부족하면 CPU로 폴백되어 속도가 크게 느려집니다
- 한국어 한계: GPT-4/Claude 대비 아직 격차가 있습니다. 특히 뉘앙스나 문학적 표현에서 차이가 납니다
- 최신 정보: 학습 데이터 기준일 이후의 정보는 모릅니다. 최신 라이브러리 버전 등은 공식 문서를 확인하세요
마무리
Gemma 4는 로컬 LLM의 새로운 기준을 세웠습니다. 무료 + 빠른 속도 + 안정성 + 프라이버시의 조합은 API 기반 모델이 줄 수 없는 가치입니다.
특히 Ollama와의 조합은 설치 한 줄, 실행 한 줄로 AI 개발 환경을 완성할 수 있어, 모든 개발자에게 추천합니다. API 비용 걱정 없이 마음껏 실험할 수 있다는 것만으로도 충분한 가치가 있습니다.
댓글 0