Databricks Mosaic AI Gateway — 모델 호출 통합 라우팅 사후 | 기술노트

핵심 요약

Databricks Mosaic AI Gateway production 운영. OpenAI(GPT-5.5), Anthropic(Claude 4.8), Vertex(Gemini 3), Bedrock(Llama 4) 4개 backend를 단일 endpoint로 라우팅. 비용 capping + PII redaction + audit log 자동.

1. Gateway 구조

Application은 단일 endpoint(/serving-endpoints/llm-gateway/invocations) 호출. Gateway가 라우팅 규칙 따라 backend 선택. 규칙: 작업 type, 비용, 가용성, 사용자 권한.

2. 라우팅 정책

Use case	Primary	Fallback
코딩 (SWE-bench)	Claude 4.8	GPT-5.5
일반 chat	Sonnet 4.7	Gemini 3 Flash
cheap classification	Llama 4 8B	Haiku 4.7
긴 코드 분석(1M)	Opus 4.8	Gemini 2M

3. 가드레일 — 자동

PII redaction — 이름·주민번호·계좌 자동 마스킹 후 LLM에 전달
Cost cap — 사용자별 일일 $5 한도, 초과 시 차단
Rate limit — 사용자당 분당 30 requests
Audit log — 모든 호출 Delta table 저장, 30일 보관

4. 비용 효과 — 4개월

Single-vendor lock-in 없이 매월 가격·성능 비교 후 라우팅 정책 조정. 4개월간 평균 비용 -28%. 한 vendor downtime 시 자동 fallback으로 SLA 영향 0.

5. 함정

Vendor별 token counting 미세 차이 — 정확한 cost cap 위해 wrap layer에서 통계
Streaming SSE 포맷 — vendor마다 다름, Gateway가 통일하지만 client SDK 호환 확인
Function calling schema — 미세 차이로 일부 vendor에서 도구 호출 실패, schema 표준화
Prompt caching — vendor별 정책 다름, Gateway가 자동 활용 못 함