본문 바로가기
AI2026년 5월 30일3분 읽기

Databricks Mosaic AI Gateway — 모델 호출 통합 라우팅 사후

YS
김영삼
조회 277
Databricks Mosaic AI Gateway — 모델 호출 통합 라우팅 사후

핵심 요약

Databricks Mosaic AI Gateway production 운영. OpenAI(GPT-5.5), Anthropic(Claude 4.8), Vertex(Gemini 3), Bedrock(Llama 4) 4개 backend를 단일 endpoint로 라우팅. 비용 capping + PII redaction + audit log 자동.

1. Gateway 구조

Application은 단일 endpoint(/serving-endpoints/llm-gateway/invocations) 호출. Gateway가 라우팅 규칙 따라 backend 선택. 규칙: 작업 type, 비용, 가용성, 사용자 권한.

2. 라우팅 정책

Use casePrimaryFallback
코딩 (SWE-bench)Claude 4.8GPT-5.5
일반 chatSonnet 4.7Gemini 3 Flash
cheap classificationLlama 4 8BHaiku 4.7
긴 코드 분석(1M)Opus 4.8Gemini 2M

3. 가드레일 — 자동

  • PII redaction — 이름·주민번호·계좌 자동 마스킹 후 LLM에 전달
  • Cost cap — 사용자별 일일 $5 한도, 초과 시 차단
  • Rate limit — 사용자당 분당 30 requests
  • Audit log — 모든 호출 Delta table 저장, 30일 보관

4. 비용 효과 — 4개월

Single-vendor lock-in 없이 매월 가격·성능 비교 후 라우팅 정책 조정. 4개월간 평균 비용 -28%. 한 vendor downtime 시 자동 fallback으로 SLA 영향 0.

5. 함정

  • Vendor별 token counting 미세 차이 — 정확한 cost cap 위해 wrap layer에서 통계
  • Streaming SSE 포맷 — vendor마다 다름, Gateway가 통일하지만 client SDK 호환 확인
  • Function calling schema — 미세 차이로 일부 vendor에서 도구 호출 실패, schema 표준화
  • Prompt caching — vendor별 정책 다름, Gateway가 자동 활용 못 함

댓글 0

아직 댓글이 없습니다.
Ctrl+Enter로 등록