왓챠 추천 서비스 MLOps 적용기 Part1

문제왓챠의 EC2 기반 ML 파이프라인은 자원 관리가 비효율적이고 환경 일관성 유지가 어려웠다. GPU 인스턴스 확보가 불안정했고 연구원 실험 환경도 빈약했다.

접근Docker와 Kubernetes로 작업별 독립 실행 환경을 만든다. On-premise GPU 서버를 도입해 학습 자원을 안정적으로 확보하고, S2S VPN으로 AWS와 연동했다. Argo Workflow로 파이프라인을 자동화하고 JupyterHub로 실험 환경을 제공했다.

결과파이프라인의 각 작업이 원하는 자원과 환경으로 독립 실행되도록 만들었다. 자원 효율과 연구원 실험 만족도가 함께 올라갔다.