기술노트 — AI·풀스택·인프라 실전 개발 지식 | 영삼넷

본문 바로가기

Speculative Decoding 프로덕션 — LLM 추론 2배 빠르게 만드는 법

draft 모델 + verifier 구조로 토큰 생성을 병렬화. n-gram, Medusa, EAGLE-2 비교와 vLLM 적용 실측 1.8~2.4배.

#LLM#Inference#Speculative

DSPy 2.7 프로덕션 — 프롬프트 자동 최적화 실전 사례

DSPy 2.7로 분류 파이프라인 자동 최적화. 정확도 +9.2%p, 사람-튜닝 1주 vs MIPROv2 4시간, 비용 변화 솔직 공개.

#DSPy#Prompt#Optimization

Mamba SSM 모델 프로덕션 — Transformer 대체, 어디서 빠른가

Mamba-2/3 SSM 아키텍처 실측. 32K 컨텍스트 처리량 Transformer 대비 3.8배, 정확도 격차와 한계 명확히 정리.

vLLM 1.0 vs SGLang vs TGI — LLM 추론 서버 실측 비교

vLLM 1.0·SGLang·TGI 3대 LLM 추론 서버 실측. Llama 70B 처리량·레이턴시·메모리, 양자화 지원과 운영 부담을 워크로드별로 비교.

#vLLM#SGLang#TGI

Sonnet 4.7 코딩 벤치마크 — 사내 코드베이스 100문제 실측

SWE-bench 같은 표준 벤치 말고, 사내 실제 코드에서 100문제 골라 Claude Sonnet 4.7 vs Opus 4.7 vs GPT-5.5 비교.

#Claude#Benchmark#Coding

프롬프트 인젝션 방어 — 2026년 LLM 위협 모델 7가지와 방어 패턴

에이전트·툴 사용 시대의 프롬프트 인젝션 7가지 위협과 다층 방어. 입력 분리, 권한 격리, 검증, 모니터링 체크리스트.

#LLM#Security#Prompt Injection

LLM 에이전트 평가 파이프라인 — golden set 구축부터 LangSmith·Phoenix 운영까지

LLM 에이전트를 "느낌"이 아닌 수치로 검증하는 평가 시스템. golden set 설계, 자동 채점, 회귀 감시까지 6개월 운영 노하우.

#LLM#Evaluation#LangSmith

LLM 추론 비용 최적화 — 캐싱·배치·라우팅으로 70% 절감하는 7가지 기법

LLM API 운영 비용 70% 절감하는 7가지 실전 기법. 프롬프트 캐싱·배치 API·모델 라우팅·프롬프트 압축 가이드.

#LLM#Cost#Optimization

LangGraph 0.5 멀티에이전트 패턴 — Supervisor·Swarm·Hierarchical 실전 가이드

LangGraph 0.5의 멀티에이전트 토폴로지 3종(Supervisor, Swarm, Hierarchical) 구조·구현·트레이드오프를 실전 코드로 정리.

#LangGraph#Agent#LLM

Claude Opus 4.7 1M 컨텍스트 — 코드베이스 전체를 한 번에 읽히는 실전 가이드

Opus 4.7의 1M 토큰 컨텍스트로 전체 레포를 한 번에 분석하는 패턴, 토큰 비용·캐싱 전략, 마이그레이션 주의점.

#Claude#Anthropic#LLM

LLM 비용 최적화 종합 — 캐싱·라우팅·프롬프트 압축·로컬 폴백

LLM API 비용을 5~10배 줄이는 검증된 5가지 기법 — Prompt Caching, Model Routing, Prompt Compression, Local Fallback, Batch API. 실측 사례.

#LLM#Cost#Optimization

AI 에이전트 디자인 패턴 7가지 — Reflexion·ReAct·Plan-Execute·Multi-Agent 실전

LLM 에이전트 시스템 설계의 7가지 핵심 패턴 — 각 패턴이 적합한 워크로드, 구현 코드 스니펫, 비용·정확도 트레이드오프 정리.