멀티모달 임베딩 — Voyage 3.5 vs Cohere Embed v5 실측 비교 | 기술노트

핵심 요약

이커머스 사내 카탈로그(상품 30만, 이미지+제목+설명) 위에서 멀티모달 검색 품질을 측정. Recall@10에서 Voyage 3.5 91.3%, Cohere Embed v5 89.7%. 한국어 텍스트 쿼리는 Voyage, 이미지 쿼리는 Cohere가 미세 우세. 단가는 Cohere가 18% 저렴.

1. 모델 스펙

	Voyage 3.5	Cohere Embed v5
차원	1024(MRL 256까지 축소)	1536(MRL 384까지)
최대 토큰	32K(텍스트), 1 이미지	8K, 5 이미지/req
단가/M 토큰	$0.18	$0.15
이미지/장	$0.00065	$0.00050

2. 벤치마크 셋업

한국어 쇼핑 쿼리 5,000개, 정답 클릭 데이터로 평가. 임베딩은 단일 벡터에 텍스트+이미지 융합. 검색기는 pgvector HNSW(m=24).

3. 결과

쿼리 유형	Voyage 3.5	Cohere v5
텍스트 쿼리(한국어)	92.4%	88.1%
텍스트 쿼리(영어)	93.0%	91.4%
이미지 쿼리	88.2%	91.0%
혼합(텍스트+이미지)	91.3%	89.7%

4. 메모리·인덱스 크기

30만 건 × 1024dim float16 = 약 615MB. Matryoshka로 256까지 줄이면 154MB, Recall@10 1.8%p 감소. 캐시 hit가 중요한 워크로드면 256 추천.

5. 운영 — 증분 임베딩 파이프라인

# Cloud Run + Pub/Sub
on_new_product:
  - resize_image(768x768)
  - embed(text + image)
  - upsert pgvector(product_id, embedding, updated_at)

일 3만 건 증분 처리, p95 1.1s. 실패 메시지는 dead-letter 큐로.

6. 한국어 함정

두 모델 모두 한국어 처리 우수. 단 영어·한국어 혼용("M2 맥북 가성비 좋은 모델") 쿼리에서 Voyage가 평균 4%p 우세. 검색어 통계상 혼용 비중이 41%라 한국어 서비스는 Voyage 추천.

7. 결정 가이드

한국어·혼용 텍스트 검색 → Voyage 3.5
이미지 위주 검색 → Cohere Embed v5
비용 최적화 + 영어 위주 → Cohere

자주 묻는 질문

Q. OpenAI text-embedding-3-large는? 멀티모달 안 됨. 텍스트 단일이라면 가격 대비 무난하지만 본 비교에서는 제외.