Amazon EC2 G7e 인스턴스에서 Synthesia 의 생성형 AI 비디오 추론 최적화하기
문제생성형 비디오 모델은 VAE latent decoding과 frame copy 과정이 순차적으로 묶여 GPU 활용률과 추론 지연에 병목이 생긴다.
접근EC2 G7e의 NVIDIA RTX PRO 6000 Blackwell GPU에서 asynchronous frame generation pipeline을 구성했다. GPU/host double buffering, page-locked memory, 별도 copy stream과 worker thread로 전송과 후처리를 겹쳤다.
결과디코딩, D2H 전송, 파일 쓰기를 병렬화해 GPU idle 시간을 줄였다. 대용량 비디오 inference에서 비용 대비 처리량을 높이는 패턴을 제시했다.