핵심 요약
Envoy AI Gateway 1.0이 OSS로 출시되며 LLM 트래픽 관리가 표준화됐다. 사내 7개 팀이 OpenAI·Anthropic·Bedrock·자체 vLLM을 동시 사용하는 환경에서 라우팅·할당량·관측을 단일 게이트웨이로 통합. 비용 가시화 + 팀별 강제 한도로 월 비용 폭증 방지.
1. 무엇을 해결하는가
- 여러 프로바이더 통합 OpenAI API 형식
- 모델별·팀별 토큰 단위 rate limit
- 비용 attributing
- 장애 시 fallback 모델 자동 전환
2. AIRoute CRD 예시
apiVersion: aigateway.envoyproxy.io/v1
kind: AIRoute
spec:
rules:
- matches: [{ headers: [{ name: x-team, value: data }] }]
backendRefs:
- name: anthropic-backend
modelName: claude-sonnet-4-6
weight: 80
- name: openai-backend
modelName: gpt-5
weight: 20
fallback:
backendRef: { name: bedrock-backend, modelName: claude-3-7-sonnet }
inferenceLimit:
tokensPerMinute: 200000
3. 토큰 기반 rate limit
일반 HTTP RPS 한도가 아니라 input·output 토큰 단위로 카운트. RateLimitService가 응답을 inspect해 차감. 팀별 월 토큰 quota도 동일 구조.
4. 관측 — Prometheus
aigateway_input_tokens_total{provider, model, team}
aigateway_output_tokens_total{...}
aigateway_request_latency_seconds_bucket{...}
aigateway_provider_errors_total{...}
Grafana 대시보드 표준 제공. 팀별 비용 그래프 자동 갱신.
5. fallback — 실전 시나리오
OpenAI 429 폭주 → 자동으로 Anthropic으로 30분간 우회 → 메트릭이 정상 복귀하면 다시 50:50. 게이트웨이가 처리해 애플리케이션 코드 무수정.
6. 비용 attributing
x-team / x-feature 헤더를 의무화. 게이트웨이가 token 카운트에 라벨을 붙여 Prometheus에 기록. 매월 자동 chargeback 리포트.
7. 함정
- 스트리밍 응답은 토큰 카운트가 약간 지연되어 quota 초과 잠시 허용
- tool use는 model dependent, fallback 시 의도와 다른 동작 가능
- Anthropic Files API 등 벤더별 고유 기능은 게이트웨이 우회 필요
자주 묻는 질문
Q. Kong AI Gateway와 비교? Kong은 SaaS 친화·plugin 풍부, Envoy는 K8s 네이티브·OSS. K8s 운영 강한 팀은 Envoy.

댓글 0