트랜스포머란?

Transformer는 2017년 Google "Attention is All You Need" 논문에서 제안된 신경망 아키텍처다. Self-Attention 메커니즘으로 시퀀스 전체를 병렬 처리해 RNN의 한계를 뛰어넘었다.

핵심 아이디어

  • Self-Attention: 문장 내 토큰들이 서로를 참조하며 가중치 계산
  • Positional Encoding: 순서 정보를 별도 벡터로 주입
  • 병렬화: RNN과 달리 시퀀스 전체를 동시에 처리 — GPU 활용 극대화

파생 모델

GPT(디코더 전용), BERT(인코더 전용), T5(인코더-디코더) 등 현대 주요 NLP 모델이 전부 Transformer 기반이다.