본문 바로가기
Infra2026년 5월 22일4분 읽기

Envoy AI Gateway — LLM 라우팅·할당량·레이트 리밋 프로덕션

YS
김영삼
조회 1566
Envoy AI Gateway — LLM 라우팅·할당량·레이트 리밋 프로덕션

핵심 요약

Envoy AI Gateway 1.0이 OSS로 출시되며 LLM 트래픽 관리가 표준화됐다. 사내 7개 팀이 OpenAI·Anthropic·Bedrock·자체 vLLM을 동시 사용하는 환경에서 라우팅·할당량·관측을 단일 게이트웨이로 통합. 비용 가시화 + 팀별 강제 한도로 월 비용 폭증 방지.

1. 무엇을 해결하는가

  • 여러 프로바이더 통합 OpenAI API 형식
  • 모델별·팀별 토큰 단위 rate limit
  • 비용 attributing
  • 장애 시 fallback 모델 자동 전환

2. AIRoute CRD 예시

apiVersion: aigateway.envoyproxy.io/v1
kind: AIRoute
spec:
  rules:
  - matches: [{ headers: [{ name: x-team, value: data }] }]
    backendRefs:
    - name: anthropic-backend
      modelName: claude-sonnet-4-6
      weight: 80
    - name: openai-backend
      modelName: gpt-5
      weight: 20
    fallback:
      backendRef: { name: bedrock-backend, modelName: claude-3-7-sonnet }
  inferenceLimit:
    tokensPerMinute: 200000

3. 토큰 기반 rate limit

일반 HTTP RPS 한도가 아니라 input·output 토큰 단위로 카운트. RateLimitService가 응답을 inspect해 차감. 팀별 월 토큰 quota도 동일 구조.

4. 관측 — Prometheus

aigateway_input_tokens_total{provider, model, team}
aigateway_output_tokens_total{...}
aigateway_request_latency_seconds_bucket{...}
aigateway_provider_errors_total{...}

Grafana 대시보드 표준 제공. 팀별 비용 그래프 자동 갱신.

5. fallback — 실전 시나리오

OpenAI 429 폭주 → 자동으로 Anthropic으로 30분간 우회 → 메트릭이 정상 복귀하면 다시 50:50. 게이트웨이가 처리해 애플리케이션 코드 무수정.

6. 비용 attributing

x-team / x-feature 헤더를 의무화. 게이트웨이가 token 카운트에 라벨을 붙여 Prometheus에 기록. 매월 자동 chargeback 리포트.

7. 함정

  • 스트리밍 응답은 토큰 카운트가 약간 지연되어 quota 초과 잠시 허용
  • tool use는 model dependent, fallback 시 의도와 다른 동작 가능
  • Anthropic Files API 등 벤더별 고유 기능은 게이트웨이 우회 필요

자주 묻는 질문

Q. Kong AI Gateway와 비교? Kong은 SaaS 친화·plugin 풍부, Envoy는 K8s 네이티브·OSS. K8s 운영 강한 팀은 Envoy.

댓글 0

아직 댓글이 없습니다.
Ctrl+Enter로 등록