Sliding Window Attention이란?
전체 attention(O(n²))은 긴 시퀀스에 비현실적. 각 토큰이 주변 K개만 참조하게 제한한다.
대표 모델
- Mistral — 4k 윈도우
- Longformer, Big Bird
- Gemma 3 — hybrid attention
Transformer의 attention을 지역 윈도우로 제한해 긴 컨텍스트 처리 비용을 줄이는 기법.
전체 attention(O(n²))은 긴 시퀀스에 비현실적. 각 토큰이 주변 K개만 참조하게 제한한다.