Envoy AI Gateway — LLM 라우팅·할당량·레이트 리밋 프로덕션 | 기술노트

핵심 요약

Envoy AI Gateway 1.0이 OSS로 출시되며 LLM 트래픽 관리가 표준화됐다. 사내 7개 팀이 OpenAI·Anthropic·Bedrock·자체 vLLM을 동시 사용하는 환경에서 라우팅·할당량·관측을 단일 게이트웨이로 통합. 비용 가시화 + 팀별 강제 한도로 월 비용 폭증 방지.

1. 무엇을 해결하는가

여러 프로바이더 통합 OpenAI API 형식
모델별·팀별 토큰 단위 rate limit
비용 attributing
장애 시 fallback 모델 자동 전환

2. AIRoute CRD 예시

apiVersion: aigateway.envoyproxy.io/v1
kind: AIRoute
spec:
  rules:
  - matches: [{ headers: [{ name: x-team, value: data }] }]
    backendRefs:
    - name: anthropic-backend
      modelName: claude-sonnet-4-6
      weight: 80
    - name: openai-backend
      modelName: gpt-5
      weight: 20
    fallback:
      backendRef: { name: bedrock-backend, modelName: claude-3-7-sonnet }
  inferenceLimit:
    tokensPerMinute: 200000

3. 토큰 기반 rate limit

일반 HTTP RPS 한도가 아니라 input·output 토큰 단위로 카운트. RateLimitService가 응답을 inspect해 차감. 팀별 월 토큰 quota도 동일 구조.

4. 관측 — Prometheus

aigateway_input_tokens_total{provider, model, team}
aigateway_output_tokens_total{...}
aigateway_request_latency_seconds_bucket{...}
aigateway_provider_errors_total{...}

Grafana 대시보드 표준 제공. 팀별 비용 그래프 자동 갱신.

5. fallback — 실전 시나리오

OpenAI 429 폭주 → 자동으로 Anthropic으로 30분간 우회 → 메트릭이 정상 복귀하면 다시 50:50. 게이트웨이가 처리해 애플리케이션 코드 무수정.

6. 비용 attributing

x-team / x-feature 헤더를 의무화. 게이트웨이가 token 카운트에 라벨을 붙여 Prometheus에 기록. 매월 자동 chargeback 리포트.

7. 함정

스트리밍 응답은 토큰 카운트가 약간 지연되어 quota 초과 잠시 허용
tool use는 model dependent, fallback 시 의도와 다른 동작 가능
Anthropic Files API 등 벤더별 고유 기능은 게이트웨이 우회 필요

자주 묻는 질문

Q. Kong AI Gateway와 비교? Kong은 SaaS 친화·plugin 풍부, Envoy는 K8s 네이티브·OSS. K8s 운영 강한 팀은 Envoy.