pile·
인프라 / DevOps·vercel-blogVercel Blog·

Vercel AI Gateway는 어떻게 Fluid Compute 위에서 동작하는가

Vercel AI Gateway가 Fluid Compute 위에서 일일 수십억 토큰을 처리하는 아키텍처를 공개했다. 스트리밍 AI 요청은 CPU 작업이 7.5%, 대기 시간이 92.5%인 구조라 Active CPU Pricing으로 실제 처리 시간만 과금해 기존 서버리스 대비 비용을 대폭 절감한다. Anycast 라우팅, in-function 동시성, Redis 기반 상태 관리, 자동 폴백 라우팅이 핵심 구성 요소다.

핵심 포인트
  • CPU 7.5%:대기 92.5% 비율 — AI 스트리밍은 네트워크 대기가 대부분이라 Active CPU Pricing이 워크로드에 최적
  • Fluid Compute in-function 동시성으로 단일 인스턴스 내 여러 요청 동시 처리, 소켓·메모리 재사용
  • Anycast 글로벌 PoP + 프라이빗 백본으로 단일 자릿수 ms 왕복 시간 달성
  • Redis로 전역 쿼터·일관성 관리, in-memory 캐시로 자격증명·라우팅을 비동기 갱신해 레이턴시 최소화
  • TTFT·오류율·토큰 처리량 실시간 모니터링 후 임계치 초과 시 자동 재라우팅 — 자가 교정 피드백 루프
상세 정리
  • 처리 규모: 일일 수십억 토큰, 월간 약 16,000 런타임 시간 중 실제 CPU 1,200시간(7.5%), 대기 14,800시간(92.5%)
  • Fluid 선택 이유: 기존 서버리스는 대기 92.5% 구간도 전부 과금 — Active CPU Pricing으로 실제 작업 시간만 과금해 비용 절감
  • 글로벌 라우팅: Anycast로 가장 가까운 PoP 자동 선택, 프라이빗 백본 연결로 인터넷 홉 최소화, 건강도·혼잡도 실시간 평가
  • in-function 동시성: 단일 함수 인스턴스 안에서 여러 스트리밍 요청 동시 처리 — 인스턴스 warm-up 없이 소켓·메모리 재사용
  • 상태 계층: Redis로 전역 쿼터 추적, in-memory 캐시로 자격증명·라우팅 테이블 빠른 조회, 백그라운드 비동기 갱신으로 레이턴시 최소화
  • 멀티 프로바이더 라우팅: Claude Sonnet 4를 Anthropic·Amazon Bedrock·Google Vertex AI 세 경로로 제공, 우선순위 지정 + 자동 폴백
  • 자가 교정 루프: TTFT·오류율·토큰 처리량을 인메모리 통계로 실시간 추적, 임계치 초과 시 자동으로 다음 우선순위 프로바이더로 트래픽 전환
  • 인증: Vercel 호스팅 앱은 OIDC 토큰, 외부 통합은 API 키로 분리 처리
왜 읽나대기 비율이 높은 AI 스트리밍 워크로드를 서버리스 위에서 비용 효율적으로 운영하는 아키텍처 설계 레퍼런스.
vercel-blog
Vercel Blog 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. 인프라 / DevOps·vercel-blogVercel Blog·

    Vercel CLI 드라이런 배포로 실제 배포 전 구성 미리 확인하기

    Vercel CLI v54.17.2부터 vercel deploy --dry 명령으로 실제 파일 업로드 없이 배포 구성을 미리 검사할 수 있다. 프레임워크 감지 결과, 포함/제외 파일 목록, 디렉터리 크기 분포, 콘텐츠 해시까지 사전에 확인하고 나서 배포를 결정할 수 있어 의도치 않은 배포 실패를 예방한다.

    #deployment#ci-cd#vercel-cli+1