Attention 메모리·속도 최적화. IO-aware·tile 기반.
Attention의 표준 구현이 메모리 O(n²). FlashAttention은 타일·재계산으로 O(n).
PyTorch 2+·vLLM·TGI 기본 사용.