Vercel AI Gateway는 어떻게 Fluid Compute 위에서 동작하는가

Vercel AI Gateway가 Fluid Compute 위에서 일일 수십억 토큰을 처리하는 아키텍처를 공개했다. 스트리밍 AI 요청은 CPU 작업이 7.5%, 대기 시간이 92.5%인 구조라 Active CPU Pricing으로 실제 처리 시간만 과금해 기존 서버리스 대비 비용을 대폭 절감한다. Anycast 라우팅, in-function 동시성, Redis 기반 상태 관리, 자동 폴백 라우팅이 핵심 구성 요소다.

핵심 포인트

CPU 7.5%:대기 92.5% 비율 — AI 스트리밍은 네트워크 대기가 대부분이라 Active CPU Pricing이 워크로드에 최적
Fluid Compute in-function 동시성으로 단일 인스턴스 내 여러 요청 동시 처리, 소켓·메모리 재사용
Anycast 글로벌 PoP + 프라이빗 백본으로 단일 자릿수 ms 왕복 시간 달성
Redis로 전역 쿼터·일관성 관리, in-memory 캐시로 자격증명·라우팅을 비동기 갱신해 레이턴시 최소화
TTFT·오류율·토큰 처리량 실시간 모니터링 후 임계치 초과 시 자동 재라우팅 — 자가 교정 피드백 루프

상세 정리

처리 규모: 일일 수십억 토큰, 월간 약 16,000 런타임 시간 중 실제 CPU 1,200시간(7.5%), 대기 14,800시간(92.5%)
Fluid 선택 이유: 기존 서버리스는 대기 92.5% 구간도 전부 과금 — Active CPU Pricing으로 실제 작업 시간만 과금해 비용 절감
글로벌 라우팅: Anycast로 가장 가까운 PoP 자동 선택, 프라이빗 백본 연결로 인터넷 홉 최소화, 건강도·혼잡도 실시간 평가
in-function 동시성: 단일 함수 인스턴스 안에서 여러 스트리밍 요청 동시 처리 — 인스턴스 warm-up 없이 소켓·메모리 재사용
상태 계층: Redis로 전역 쿼터 추적, in-memory 캐시로 자격증명·라우팅 테이블 빠른 조회, 백그라운드 비동기 갱신으로 레이턴시 최소화
멀티 프로바이더 라우팅: Claude Sonnet 4를 Anthropic·Amazon Bedrock·Google Vertex AI 세 경로로 제공, 우선순위 지정 + 자동 폴백
자가 교정 루프: TTFT·오류율·토큰 처리량을 인메모리 통계로 실시간 추적, 임계치 초과 시 자동으로 다음 우선순위 프로바이더로 트래픽 전환
인증: Vercel 호스팅 앱은 OIDC 토큰, 외부 통합은 API 키로 분리 처리

왜 읽나대기 비율이 높은 AI 스트리밍 워크로드를 서버리스 위에서 비용 효율적으로 운영하는 아키텍처 설계 레퍼런스.

Vercel Blog 블로그

원문은 여기서 이어서 읽을 수 있어요

원문 읽기

읽음 (0)

·takedown 요청

이 글과 비슷한

인프라 / DevOps·Vercel Blog·4일 전
서비스 간 안전한 내부 통신 구성
Vercel의 Service Bindings는 멀티 서비스 배포에서 서비스 간 안전한 내부 통신을 자동화한다. 한 서비스가 다른 서비스에 바인딩을 선언하면 Vercel이 환경 변수 주입, 내부 라우팅, TLS 암호화를 투명하게 처리해 공개 인터넷을 거치지 않고 HTTPS 통신이 가능하다.
#tls#microservices#service-bindings+1
인프라 / DevOps·Vercel Blog·4일 전
Vercel CLI 드라이런 배포로 실제 배포 전 구성 미리 확인하기
Vercel CLI v54.17.2부터 vercel deploy --dry 명령으로 실제 파일 업로드 없이 배포 구성을 미리 검사할 수 있다. 프레임워크 감지 결과, 포함/제외 파일 목록, 디렉터리 크기 분포, 콘텐츠 해시까지 사전에 확인하고 나서 배포를 결정할 수 있어 의도치 않은 배포 실패를 예방한다.
#deployment#ci-cd#vercel-cli+1
인프라 / DevOps·Vercel Blog·5일 전
Vercel Services: 단일 프로젝트에서 풀스택 실행하기
Vercel이 프론트엔드와 백엔드를 단일 프로젝트에서 통합 배포할 수 있는 Vercel Services를 출시했다. vercel.json 하나로 Next.js 프론트엔드와 FastAPI 백엔드를 선언하고, 내부 서비스 간 통신은 공개 인터넷을 경유하지 않는 private binding으로 처리한다.
#microservices#vercel#fluid-compute+2

Vercel AI Gateway는 어떻게 Fluid Compute 위에서 동작하는가

이 글과 비슷한

서비스 간 안전한 내부 통신 구성

Vercel CLI 드라이런 배포로 실제 배포 전 구성 미리 확인하기

Vercel Services: 단일 프로젝트에서 풀스택 실행하기