본문 바로가기

AI#AI#Vision#Audio조회 124

Multimodal란?멀티모달

정의

텍스트·이미지·음성·영상 등 여러 종류의 입력을 함께 처리하는 모델. GPT-4o, Claude Opus, Gemini가 대표적.

다른 표현멀티모달Multimodal AI

Multimodal이란?

서로 다른 모달리티(양식) — 텍스트, 이미지, 오디오, 비디오 — 를 동시에 입력받아 처리하는 AI 모델이다.

주요 활용

이미지 + 질문 → 답변 (VQA)
스크린샷 기반 UI 자동화
동영상 요약·자막 생성
음성 대화형 어시스턴트

대표 모델

GPT-4o, Claude Opus 4.7 (2576px 비전), Gemini, Qwen-VL 등. 2026년엔 실시간 비디오 입력까지 일반화됐다.

📘 관련 기술노트

전체 보기 →

AIGemini AI 발표 — Google의 멀티모달 AI 모델

AIGPT-4o 멀티모달 API 실전 활용

AI멀티모달 AI 활용 — 이미지, 오디오, 비디오 처리

🔗 함께 보면 좋은 용어

멀티 에이전트 오케스트레이션

Supervisor·Hierarchy·Network 패턴으로 여러 에이전트 조율.

청킹 전략 상세

고정·문장·계층·의미론적·Agentic 청킹. RAG 품질의 결정.

추론 지연 최적화

TTFT·TPS·Batching·KV Cache·Speculative·Quantization 조합.

Agent-to-Agent Protocol

에이전트 간 통신 표준. Google이 제안. MCP와 상호 보완.

전체 예측 중 맞춘 비율. 클래스 불균형 시 오해를 유발할 수 있음.

Activation Function

신경망 뉴런의 비선형 변환. ReLU·GELU·Sigmoid·Tanh.