Transformer의 Key·Value를 캐시해 재계산 회피. LLM 추론의 메모리 주범.
이전 토큰의 Key·Value를 저장해 재계산 방지. 긴 컨텍스트에서 메모리 선형 증가 → PagedAttention이 해결.