핵심 요약
이커머스 사내 카탈로그(상품 30만, 이미지+제목+설명) 위에서 멀티모달 검색 품질을 측정. Recall@10에서 Voyage 3.5 91.3%, Cohere Embed v5 89.7%. 한국어 텍스트 쿼리는 Voyage, 이미지 쿼리는 Cohere가 미세 우세. 단가는 Cohere가 18% 저렴.
1. 모델 스펙
| Voyage 3.5 | Cohere Embed v5 | |
|---|---|---|
| 차원 | 1024(MRL 256까지 축소) | 1536(MRL 384까지) |
| 최대 토큰 | 32K(텍스트), 1 이미지 | 8K, 5 이미지/req |
| 단가/M 토큰 | $0.18 | $0.15 |
| 이미지/장 | $0.00065 | $0.00050 |
2. 벤치마크 셋업
한국어 쇼핑 쿼리 5,000개, 정답 클릭 데이터로 평가. 임베딩은 단일 벡터에 텍스트+이미지 융합. 검색기는 pgvector HNSW(m=24).
3. 결과
| 쿼리 유형 | Voyage 3.5 | Cohere v5 |
|---|---|---|
| 텍스트 쿼리(한국어) | 92.4% | 88.1% |
| 텍스트 쿼리(영어) | 93.0% | 91.4% |
| 이미지 쿼리 | 88.2% | 91.0% |
| 혼합(텍스트+이미지) | 91.3% | 89.7% |
4. 메모리·인덱스 크기
30만 건 × 1024dim float16 = 약 615MB. Matryoshka로 256까지 줄이면 154MB, Recall@10 1.8%p 감소. 캐시 hit가 중요한 워크로드면 256 추천.
5. 운영 — 증분 임베딩 파이프라인
# Cloud Run + Pub/Sub
on_new_product:
- resize_image(768x768)
- embed(text + image)
- upsert pgvector(product_id, embedding, updated_at)
일 3만 건 증분 처리, p95 1.1s. 실패 메시지는 dead-letter 큐로.
6. 한국어 함정
두 모델 모두 한국어 처리 우수. 단 영어·한국어 혼용("M2 맥북 가성비 좋은 모델") 쿼리에서 Voyage가 평균 4%p 우세. 검색어 통계상 혼용 비중이 41%라 한국어 서비스는 Voyage 추천.
7. 결정 가이드
- 한국어·혼용 텍스트 검색 → Voyage 3.5
- 이미지 위주 검색 → Cohere Embed v5
- 비용 최적화 + 영어 위주 → Cohere
자주 묻는 질문
Q. OpenAI text-embedding-3-large는? 멀티모달 안 됨. 텍스트 단일이라면 가격 대비 무난하지만 본 비교에서는 제외.

댓글 0