인프라 / DevOps·

Pinterest Engineering·2개월 전

시스템 속 좀비 찾기 — 실제 CPU 병목 사례

문제Pinterest의 분산 ML job이 간헐적 네트워크 timeout으로 실패해 GPU 자원을 낭비했다.

접근fleet-wide metric과 재현 가능한 격리 환경을 만들고, temporal profiling과 gProfiler로 OS 이미지의 systemd 실패 패턴을 추적했다.

결과환경 차이와 반복 실패 프로세스가 CPU 병목을 만든 원인을 찾아냈다. transient 성능 문제에는 시간축 profiling이 효과적이었다.

Pinterest Engineering 블로그

원문은 여기서 이어서 읽을 수 있어요

읽음 (0)

·takedown 요청

이 글과 비슷한

인프라 / DevOps·Vercel Blog·4일 전
서비스 간 안전한 내부 통신 구성
Vercel의 Service Bindings는 멀티 서비스 배포에서 서비스 간 안전한 내부 통신을 자동화한다. 한 서비스가 다른 서비스에 바인딩을 선언하면 Vercel이 환경 변수 주입, 내부 라우팅, TLS 암호화를 투명하게 처리해 공개 인터넷을 거치지 않고 HTTPS 통신이 가능하다.
#tls#microservices#service-bindings+1
인프라 / DevOps·Vercel Blog·4일 전
Vercel CLI 드라이런 배포로 실제 배포 전 구성 미리 확인하기
Vercel CLI v54.17.2부터 vercel deploy --dry 명령으로 실제 파일 업로드 없이 배포 구성을 미리 검사할 수 있다. 프레임워크 감지 결과, 포함/제외 파일 목록, 디렉터리 크기 분포, 콘텐츠 해시까지 사전에 확인하고 나서 배포를 결정할 수 있어 의도치 않은 배포 실패를 예방한다.
#deployment#ci-cd#vercel-cli+1
인프라 / DevOps·Vercel Blog·5일 전
Vercel Services: 단일 프로젝트에서 풀스택 실행하기
Vercel이 프론트엔드와 백엔드를 단일 프로젝트에서 통합 배포할 수 있는 Vercel Services를 출시했다. vercel.json 하나로 Next.js 프론트엔드와 FastAPI 백엔드를 선언하고, 내부 서비스 간 통신은 공개 인터넷을 경유하지 않는 private binding으로 처리한다.
#microservices#vercel#fluid-compute+2