Multimodal이란?
서로 다른 모달리티(양식) — 텍스트, 이미지, 오디오, 비디오 — 를 동시에 입력받아 처리하는 AI 모델이다.
주요 활용
- 이미지 + 질문 → 답변 (VQA)
- 스크린샷 기반 UI 자동화
- 동영상 요약·자막 생성
- 음성 대화형 어시스턴트
대표 모델
GPT-4o, Claude Opus 4.7 (2576px 비전), Gemini, Qwen-VL 등. 2026년엔 실시간 비디오 입력까지 일반화됐다.
텍스트·이미지·음성·영상 등 여러 종류의 입력을 함께 처리하는 모델. GPT-4o, Claude Opus, Gemini가 대표적.
서로 다른 모달리티(양식) — 텍스트, 이미지, 오디오, 비디오 — 를 동시에 입력받아 처리하는 AI 모델이다.
GPT-4o, Claude Opus 4.7 (2576px 비전), Gemini, Qwen-VL 등. 2026년엔 실시간 비디오 입력까지 일반화됐다.