본문 바로가기

AI#AI#CV조회 107

Vision Transformer란?ViT

정의

이미지를 패치로 쪼개 Transformer로 처리. CNN 대신 SOTA 달성.

ViT란?

2020년 Google이 제안. 이미지를 16x16 패치로 나눠 Transformer에 넣는다.

영향

대용량 데이터에선 CNN 능가
멀티모달 LLM의 Vision Encoder
DINO·MAE·CLIP의 기반

🔗 함께 보면 좋은 용어

멀티 에이전트 오케스트레이션

Supervisor·Hierarchy·Network 패턴으로 여러 에이전트 조율.

청킹 전략 상세

고정·문장·계층·의미론적·Agentic 청킹. RAG 품질의 결정.

추론 지연 최적화

TTFT·TPS·Batching·KV Cache·Speculative·Quantization 조합.

Agent-to-Agent Protocol

에이전트 간 통신 표준. Google이 제안. MCP와 상호 보완.

전체 예측 중 맞춘 비율. 클래스 불균형 시 오해를 유발할 수 있음.

Activation Function

신경망 뉴런의 비선형 변환. ReLU·GELU·Sigmoid·Tanh.