핵심 요약
Mamba-2가 등장한 지 1년 반, 2026년 들어 Mamba-3와 하이브리드(Jamba 1.5, Zamba2) 계열이 프로덕션에 본격 진입. 핵심은 선형 시간 복잡도. 32K 토큰 컨텍스트에서 Transformer 대비 처리량 3~4배, 메모리 60% 절감. 단, 단순 사실 회상(needle-in-haystack)과 in-context learning에서 격차가 여전하다.
1. SSM 원리, 30초 정리
Selective State Space Model은 RNN처럼 상태 h_t를 시간순으로 업데이트한다. Transformer의 어텐션 O(n^2)와 달리 O(n)이고, 추론 시 KV 캐시 없이 고정 크기 상태만 들고 간다. Mamba의 핵심은 입력 의존적(selective) 파라미터 — 어떤 토큰을 기억하고 잊을지 학습한다.
2. Mamba-2 vs Mamba-3 차이
Mamba-3는 State Space Duality(SSD)를 확장해 행렬 형태로 GPU 친화적이 됐다. H100에서 학습 속도 2.1배. 컨텍스트 길이 확장 시 성능 저하도 완만하다.
| 모델 | 학습 처리량(tok/s/GPU) | 32K 추론(tok/s) | HellaSwag |
|---|---|---|---|
| Llama-3 8B | 9,400 | 1,820 | 82.1 |
| Mamba-2 8B | 14,200 | 5,640 | 79.8 |
| Mamba-3 8B | 18,800 | 6,910 | 81.7 |
| Jamba 1.5 Mini(하이브리드) | 11,300 | 4,420 | 83.4 |
3. 어디서 진짜 빠른가
- 긴 문서 요약(40K 토큰): Mamba-3 8B가 Llama-3 8B 대비 3.8배 처리량, 메모리 18GB → 7GB
- 로그 분석 스트리밍: 상태가 고정 크기라 무한 스트림 처리에 유리
- 오디오/DNA 시퀀스: 백만 토큰 컨텍스트가 현실적
4. 어디서 망가지나
Needle-in-a-haystack 90K 토큰 테스트에서 Mamba-2 단독은 회상률 62%. Transformer 95% 이상. 이유는 상태 압축에서 정보 손실. Jamba 같은 하이브리드(어텐션 레이어 1/8 섞음)는 91%까지 회복하지만 메모리 이득이 줄어든다.
5. 추론 서버 — vllm-mamba 사용
from vllm import LLM, SamplingParams
llm = LLM(
model="state-spaces/mamba-3-8b",
max_model_len=131072,
gpu_memory_utilization=0.85,
enforce_eager=False,
)
params = SamplingParams(temperature=0.7, max_tokens=2048)
out = llm.generate(prompts, params)
CUDA graph를 끄면 처리량이 40% 떨어진다. selective_scan 커널이 작은 연산 다수로 구성돼 런치 오버헤드가 크기 때문.
6. 파인튜닝 — LoRA 적용
from peft import LoraConfig, get_peft_model
cfg = LoraConfig(
r=16, lora_alpha=32,
target_modules=["in_proj", "x_proj", "out_proj"],
lora_dropout=0.05,
)
model = get_peft_model(base_model, cfg)
주의: Mamba 블록의 dt_proj와 A_log는 LoRA 대상이 아니다. 건드리면 학습 불안정.
7. 비용 비교
| 시나리오 | Llama-3 8B | Mamba-3 8B | 절감 |
|---|---|---|---|
| 일일 1M 요청 평균 8K 컨텍스트 | $184 | $71 | 61% |
| 32K 컨텍스트 100K 요청 | $96 | $28 | 71% |
| 4K 컨텍스트 10M 요청 | $420 | $390 | 7% |
8. 도입 결정 가이드
- 도입 권장: 평균 컨텍스트 16K 이상, 처리량 중심, 회상 정확도 결정적이지 않은 곳
- 하이브리드(Jamba) 권장: in-context learning 필요, 32K+ 컨텍스트, 회상도 중요
- 비권장: 짧은 챗, 코드 생성, 정확한 인용 필요
참고
- arxiv.org/abs/2405.21060 (Mamba-2)
- github.com/state-spaces/mamba
- ai21.com/jamba

댓글 0