본문 바로가기

AI#AI#Transformer#NLP조회 36

Attention란?Attention Mechanism

정의

시퀀스 내 토큰들이 서로를 참조하며 중요도(가중치)를 학습하는 메커니즘. Transformer의 핵심.

다른 표현어텐션Attention Mechanism

Attention이란?

시퀀스 안의 각 토큰이 다른 토큰들 중 어디에 주목할지 가중치로 학습하는 메커니즘이다. 2017년 "Attention is All You Need"에서 제안.

Self-Attention

같은 시퀀스 내에서 자기 자신과 다른 토큰 간 관계를 계산. Q(Query), K(Key), V(Value) 세 행렬로 구성.

왜 강력한가

거리에 관계없이 어느 토큰이든 직접 참조 가능 (RNN의 한계 극복)
완전 병렬화 — GPU 효율 극대
멀티헤드로 여러 관점 학습

최적화

FlashAttention, Paged Attention 등으로 메모리·속도 개선이 계속 이뤄지고 있다.

🔗 함께 보면 좋은 용어

멀티 에이전트 오케스트레이션

Supervisor·Hierarchy·Network 패턴으로 여러 에이전트 조율.

청킹 전략 상세

고정·문장·계층·의미론적·Agentic 청킹. RAG 품질의 결정.

추론 지연 최적화

TTFT·TPS·Batching·KV Cache·Speculative·Quantization 조합.

Agent-to-Agent Protocol

에이전트 간 통신 표준. Google이 제안. MCP와 상호 보완.

전체 예측 중 맞춘 비율. 클래스 불균형 시 오해를 유발할 수 있음.

Activation Function

신경망 뉴런의 비선형 변환. ReLU·GELU·Sigmoid·Tanh.