Gemma 4란

Gemma 4는 Google DeepMind가 공개한 최신 오픈소스 LLM입니다. Gemini 아키텍처를 기반으로 하면서 로컬 실행에 최적화된 것이 특징입니다.

직접 2주간 실무에서 사용해본 결론부터 말씀드리면 — 속도, 안정성, 한국어 성능 모두 만족스럽습니다. 특히 Ollama와의 조합이 뛰어나서 설치부터 실행까지 5분이면 충분합니다.

Ollama 설치

Ollama는 로컬 LLM을 가장 쉽게 실행할 수 있는 도구입니다. Docker 없이 단독으로 동작하며, 모델 다운로드부터 API 서빙까지 한 번에 처리합니다.

macOS / Linux

# Ollama 설치 (한 줄)
curl -fsSL https://ollama.com/install.sh | sh

# 설치 확인
ollama --version

Windows

ollama.com/download에서 설치 파일을 다운로드하여 실행합니다.

Docker (서버 환경)

# GPU 지원 Docker 실행
docker run -d --gpus all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# CPU만 사용
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Gemma 4 모델 다운로드 및 실행

# Gemma 4 모델 다운로드 + 실행 (한 줄)
ollama run gemma4

# 특정 크기 모델 선택
ollama run gemma4:2b    # 2B 파라미터 (가벼움, 노트북 OK)
ollama run gemma4:9b    # 9B 파라미터 (균형)
ollama run gemma4:27b   # 27B 파라미터 (고성능, GPU 권장)

첫 실행 시 모델 다운로드가 진행됩니다. 2B 모델은 약 1.5GB, 9B는 약 5GB, 27B는 약 16GB입니다.

속도 테스트 결과

실제 사용 환경에서 측정한 토큰 생성 속도입니다.

테스트 환경

환경	CPU/GPU	RAM
MacBook Pro M3	M3 Pro 12코어	36GB
Linux 서버	RTX 4090	64GB
일반 노트북	i7-13700H	32GB

결과 (tokens/sec)

모델	M3 Pro	RTX 4090	i7 CPU
gemma4:2b	85 t/s	120+ t/s	35 t/s
gemma4:9b	32 t/s	80 t/s	12 t/s
gemma4:27b	12 t/s	45 t/s	3 t/s

체감 속도: 9B 모델 기준 M3 MacBook에서 거의 실시간에 가깝게 응답합니다. 2B 모델은 일반 노트북에서도 충분히 빠릅니다.

안정성 테스트

2주간 실무에서 사용하면서 체감한 안정성입니다.

긴 대화 유지: 50턴 이상의 대화에서도 맥락을 잃지 않고 일관된 응답을 생성합니다
할루시네이션: 이전 세대(Gemma 2) 대비 체감 50% 이상 감소. "모르겠습니다"라고 정직하게 답하는 경우가 늘었습니다
메모리 안정성: 장시간 실행해도 메모리 누수 없이 안정적으로 동작합니다
에러 발생률: 2주간 약 500회 질의 중 비정상 응답 0건

한국어 성능

한국어 성능이 크게 개선되었습니다. 이전 세대에서는 영어 대비 한국어 품질이 눈에 띄게 낮았지만, Gemma 4에서는 그 격차가 많이 줄었습니다.

# 한국어 테스트
ollama run gemma4:9b "PostgreSQL에서 인덱스를 언제 걸어야 하는지 설명해줘"

기술 문서 번역, 코드 주석 한글화, 한국어 Q&A 답변 생성 등에서 실용적인 수준의 결과를 보여줍니다.

API 서버로 활용하기

Ollama는 설치만 하면 자동으로 REST API 서버가 실행됩니다 (기본 포트: 11434).

curl로 직접 호출

# 텍스트 생성
curl http://localhost:11434/api/generate -d '{
  "model": "gemma4:9b",
  "prompt": "Docker Compose에서 healthcheck 설정하는 방법을 알려줘",
  "stream": false
}'

# 채팅 형식
curl http://localhost:11434/api/chat -d '{
  "model": "gemma4:9b",
  "messages": [
    {"role": "user", "content": "React useEffect에서 cleanup 함수는 언제 실행되나요?"}
  ],
  "stream": false
}'

Python에서 사용

import requests

def ask_gemma(question):
    response = requests.post("http://localhost:11434/api/generate", json={
        "model": "gemma4:9b",
        "prompt": question,
        "stream": False
    })
    return response.json()["response"]

# 사용 예시
answer = ask_gemma("FastAPI에서 미들웨어 작성하는 방법을 알려줘")
print(answer)

Node.js에서 사용

async function askGemma(question) {
  const res = await fetch("http://localhost:11434/api/generate", {
    method: "POST",
    headers: { "Content-Type": "application/json" },
    body: JSON.stringify({
      model: "gemma4:9b",
      prompt: question,
      stream: false
    })
  })
  const data = await res.json()
  return data.response
}

// 사용 예시
const answer = await askGemma("TypeScript에서 제네릭 제약 조건 패턴 설명해줘")
console.log(answer)

LangChain 연동

from langchain_community.llms import Ollama

llm = Ollama(model="gemma4:9b")
response = llm.invoke("RAG 시스템에서 청킹 전략을 설명해줘")
print(response)

실전 활용 사례

1. 코드 리뷰 자동화

Git diff를 Gemma 4에 넘겨서 코드 리뷰를 자동화할 수 있습니다. API 비용이 0원이므로 모든 커밋에 적용해도 부담이 없습니다.

2. 기술 문서 초안 작성

README, API 문서, 변경 로그 등의 초안을 빠르게 생성할 수 있습니다. 한국어 성능이 좋아져서 번역 작업에도 활용 가능합니다.

3. 로컬 RAG 시스템

사내 문서를 벡터 DB에 저장하고 Gemma 4로 질의하는 RAG 시스템을 구축할 수 있습니다. 데이터가 외부로 나가지 않으므로 보안에 민감한 환경에 적합합니다.

4. 디버깅 어시스턴트

에러 로그를 붙여넣으면 원인 분석과 해결 방법을 제시합니다. 간단한 버그는 직접 수정 코드까지 생성해줍니다.

모델 크기별 선택 가이드

모델	추천 환경	용도
gemma4:2b	노트북, 저사양 서버	간단한 Q&A, 코드 자동완성, 빠른 프로토타이핑
gemma4:9b	M1+ Mac, GPU 서버	코드 리뷰, 문서 작성, RAG, 일반 개발 보조 (가장 추천)
gemma4:27b	GPU 서버 (16GB+ VRAM)	복잡한 추론, 대규모 코드 분석, 고품질 문서 생성

개인적 추천: 대부분의 개발자에게 9B 모델이 최적입니다. 속도와 품질의 균형이 가장 좋습니다.

GPT-4 / Claude와 비교

항목	Gemma 4 (9B)	GPT-4	Claude 4.6
비용	무료	$30/1M tokens	$15/1M tokens
속도	32 t/s (로컬)	~50 t/s (API)	~60 t/s (API)
프라이버시	완전 로컬	클라우드	클라우드
한국어	좋음	매우 좋음	매우 좋음
코딩	좋음	매우 좋음	최고
오프라인	가능	불가	불가

복잡한 추론이나 대규모 프로젝트는 Claude/GPT가 우세하지만, 일상적인 개발 보조, 보안이 중요한 환경, API 비용이 부담되는 경우에는 Gemma 4가 최적의 선택입니다.

유용한 설정 팁

시스템 프롬프트 설정

# Modelfile 생성
cat > Modelfile << 'EOF'
FROM gemma4:9b
SYSTEM "당신은 10년 경력의 시니어 풀스택 개발자입니다. 한국어로 답변하며, 코드 예제를 반드시 포함합니다. 답변은 간결하고 실전적이어야 합니다."
PARAMETER temperature 0.3
PARAMETER num_ctx 8192
EOF

# 커스텀 모델 생성
ollama create my-dev-assistant -f Modelfile

# 사용
ollama run my-dev-assistant

GPU 메모리 관리

# 사용하지 않는 모델 메모리에서 해제
ollama stop gemma4:27b

# 모델 목록 확인
ollama list

# 모델 삭제
ollama rm gemma4:2b

자동 시작 설정 (Linux)

# systemd 서비스로 등록 (부팅 시 자동 시작)
sudo systemctl enable ollama
sudo systemctl start ollama

# 상태 확인
sudo systemctl status ollama

주의할 점

첫 실행 시 모델 다운로드 시간: 네트워크 속도에 따라 수 분에서 수십 분 소요될 수 있습니다
VRAM 부족: 27B 모델은 최소 16GB VRAM이 필요합니다. 부족하면 CPU로 폴백되어 속도가 크게 느려집니다
한국어 한계: GPT-4/Claude 대비 아직 격차가 있습니다. 특히 뉘앙스나 문학적 표현에서 차이가 납니다
최신 정보: 학습 데이터 기준일 이후의 정보는 모릅니다. 최신 라이브러리 버전 등은 공식 문서를 확인하세요

마무리

Gemma 4는 로컬 LLM의 새로운 기준을 세웠습니다. 무료 + 빠른 속도 + 안정성 + 프라이버시의 조합은 API 기반 모델이 줄 수 없는 가치입니다.

특히 Ollama와의 조합은 설치 한 줄, 실행 한 줄로 AI 개발 환경을 완성할 수 있어, 모든 개발자에게 추천합니다. API 비용 걱정 없이 마음껏 실험할 수 있다는 것만으로도 충분한 가치가 있습니다.

Gemma 4 완벽 가이드 — Ollama로 설치부터 실전 활용까지