기술노트 — AI·풀스택·인프라 실전 개발 지식 | 영삼넷

본문 바로가기

Cloudflare Workers AI — Llama 4 8B 한국어 fine-tune 운영

Workers AI에서 Llama 4 8B를 한국어 corpus로 fine-tune 후 6개월 서빙. 비용 60% 절감, 한국어 BLEU +18.

#Cloudflare#Llama#Finetune

Llama 5 405B Multimodal — 자체 호스팅 비용·성능 벤치마크

Llama 5 405B 멀티모달의 자체 호스팅 인프라 비용과 처리량 측정. 8×H200 대비 4×B200 비교, API 대비 손익분기점.

#Llama#SelfHosting#Inference

오픈소스 LLM 리더보드 2026-05 — Llama 4·Qwen 3·DeepSeek V4 실측

Llama 4 405B, Qwen 3 235B, DeepSeek V4의 벤치마크·추론 비용·한국어 능력·라이선스를 실측 비교.

#Llama#Qwen#DeepSeek

Llama.cpp 로컬 LLM 최적화 — 양자화와 GGUF 포맷

llama.cpp를 활용한 로컬 LLM 실행 시 양자화 수준별 성능 차이와 GGUF 포맷의 구조를 분석하고 최적 설정을 찾는 방법입니다.

#Llama#양자화#GGUF

Ollama 로컬 LLM 실행 — Llama 2·Mistral·Phi

Ollama 로컬 LLM 실행 — Llama 2·Mistral·Phi — 실무에서 바로 적용할 수 있는 가이드입니다.

#Ollama#로컬LLM#Llama