Attention이란?
시퀀스 안의 각 토큰이 다른 토큰들 중 어디에 주목할지 가중치로 학습하는 메커니즘이다. 2017년 "Attention is All You Need"에서 제안.
Self-Attention
같은 시퀀스 내에서 자기 자신과 다른 토큰 간 관계를 계산. Q(Query), K(Key), V(Value) 세 행렬로 구성.
왜 강력한가
- 거리에 관계없이 어느 토큰이든 직접 참조 가능 (RNN의 한계 극복)
- 완전 병렬화 — GPU 효율 극대
- 멀티헤드로 여러 관점 학습
최적화
FlashAttention, Paged Attention 등으로 메모리·속도 개선이 계속 이뤄지고 있다.