핵심 요약
Databricks Mosaic AI Gateway production 운영. OpenAI(GPT-5.5), Anthropic(Claude 4.8), Vertex(Gemini 3), Bedrock(Llama 4) 4개 backend를 단일 endpoint로 라우팅. 비용 capping + PII redaction + audit log 자동.
1. Gateway 구조
Application은 단일 endpoint(/serving-endpoints/llm-gateway/invocations) 호출. Gateway가 라우팅 규칙 따라 backend 선택. 규칙: 작업 type, 비용, 가용성, 사용자 권한.
2. 라우팅 정책
| Use case | Primary | Fallback |
|---|---|---|
| 코딩 (SWE-bench) | Claude 4.8 | GPT-5.5 |
| 일반 chat | Sonnet 4.7 | Gemini 3 Flash |
| cheap classification | Llama 4 8B | Haiku 4.7 |
| 긴 코드 분석(1M) | Opus 4.8 | Gemini 2M |
3. 가드레일 — 자동
- PII redaction — 이름·주민번호·계좌 자동 마스킹 후 LLM에 전달
- Cost cap — 사용자별 일일 $5 한도, 초과 시 차단
- Rate limit — 사용자당 분당 30 requests
- Audit log — 모든 호출 Delta table 저장, 30일 보관
4. 비용 효과 — 4개월
Single-vendor lock-in 없이 매월 가격·성능 비교 후 라우팅 정책 조정. 4개월간 평균 비용 -28%. 한 vendor downtime 시 자동 fallback으로 SLA 영향 0.
5. 함정
- Vendor별 token counting 미세 차이 — 정확한 cost cap 위해 wrap layer에서 통계
- Streaming SSE 포맷 — vendor마다 다름, Gateway가 통일하지만 client SDK 호환 확인
- Function calling schema — 미세 차이로 일부 vendor에서 도구 호출 실패, schema 표준화
- Prompt caching — vendor별 정책 다름, Gateway가 자동 활용 못 함

댓글 0