ViT란?2020년 Google이 제안. 이미지를 16x16 패치로 나눠 Transformer에 넣는다.영향대용량 데이터에선 CNN 능가멀티모달 LLM의 Vision EncoderDINO·MAE·CLIP의 기반