본문 바로가기
AI#AI#Vision#Audio조회 2

Multimodal란?멀티모달

정의

텍스트·이미지·음성·영상 등 여러 종류의 입력을 함께 처리하는 모델. GPT-4o, Claude Opus, Gemini가 대표적.

다른 표현멀티모달Multimodal AI

Multimodal이란?

서로 다른 모달리티(양식) — 텍스트, 이미지, 오디오, 비디오 — 를 동시에 입력받아 처리하는 AI 모델이다.

주요 활용

  • 이미지 + 질문 → 답변 (VQA)
  • 스크린샷 기반 UI 자동화
  • 동영상 요약·자막 생성
  • 음성 대화형 어시스턴트

대표 모델

GPT-4o, Claude Opus 4.7 (2576px 비전), Gemini, Qwen-VL 등. 2026년엔 실시간 비디오 입력까지 일반화됐다.

📘 관련 기술노트

전체 보기 →

🔗 함께 보면 좋은 용어

AI 전체 →