Meet Coupang’s Machine Learning Platform

문제쿠팡 내부에서 ML 모델을 운영에 올리기까지 수 주가 걸리고 GPU 활용도 떨어지며 팀마다 인프라가 중복됐다.

접근통합 ML 플랫폼을 만들어 관리형 Jupyter notebook, 파이프라인 SDK, 표준 Docker 이미지(TensorFlow/PyTorch)를 제공한다. Feast 기반 feature store, Kubernetes 분산 학습, Seldon 모델 서빙으로 학습부터 배포까지 연결한다.

결과연간 10만 건 이상의 워크플로우와 600개 넘는 ML 프로젝트가 플랫폼 위에서 돌아간다. BERT 학습은 A100 GPU 기준 10배 빨라지고 배포 기간은 수 주에서 수 일로 줄어든다.