본문 바로가기
AI#AI#Attention조회 19

Sliding Window Attention란?

정의

Transformer의 attention을 지역 윈도우로 제한해 긴 컨텍스트 처리 비용을 줄이는 기법.

Sliding Window Attention이란?

전체 attention(O(n²))은 긴 시퀀스에 비현실적. 각 토큰이 주변 K개만 참조하게 제한한다.

대표 모델

  • Mistral — 4k 윈도우
  • Longformer, Big Bird
  • Gemma 3 — hybrid attention

🔗 함께 보면 좋은 용어

AI 전체 →