클라우드 비용 최적화를 위한 Automatic Labeling System 구축기
문제클라우드 비용이 늘어날수록 누가 어떤 리소스를 쓰는지 명확하지 않으면 절감 우선순위를 못 정한다.
접근왓챠가 자동 라벨링 시스템을 구축. 리소스 소유자 / 팀 자동 매핑, 비용 분석 대시보드, FinOps 거버넌스 운영.
결과비용 책임이 명확해지고 팀 단위 절감 동기 부여. 자동 라벨링이 FinOps 기반이 된 사례.
문제클라우드 비용이 늘어날수록 누가 어떤 리소스를 쓰는지 명확하지 않으면 절감 우선순위를 못 정한다.
접근왓챠가 자동 라벨링 시스템을 구축. 리소스 소유자 / 팀 자동 매핑, 비용 분석 대시보드, FinOps 거버넌스 운영.
결과비용 책임이 명확해지고 팀 단위 절감 동기 부여. 자동 라벨링이 FinOps 기반이 된 사례.
문제AWS 데이터를 BigQuery로 동기화하는 파이프라인이 팀별로 흩어져 연쇄 실패가 잦았고, DynamoDB 전체 export는 GB당 0.1달러로 비용이 컸다.
접근Argo Workflows로 전체 흐름을 단일 워크플로우로 통합하고 세 개의 템플릿으로 표준화했다. IAM Access Key 대신 Role 페더레이션을 적용하고 DynamoDB Incremental Export로 변경분만 이관하도록 바꿨다.
결과내보내기 비용이 95% 이상 절감됐고, 에러 추적과 복구가 쉬워지면서 수동 운영 부하가 크게 줄었다.
문제왓챠 추천 시스템이 모델 추론을 애플리케이션 내부에서 직접 처리해 PyTorch 버전 업데이트가 늦어지고, 모델 로직 수정이 전체 서비스 재배포로 이어졌다.
접근TorchServe, Triton, Seldon Core, FastAPI를 비교한 뒤 PyTorch 최적화와 CPU 성능이 뛰어난 TorchServe로 추론 서버를 분리한다. Dynamic Batching과 모델 양자화로 처리량을 끌어올렸다.
결과모델 추론 속도를 약 50% 향상했고 오프라인 정확도 손실은 1% 미만으로 유지했다. 모델과 서비스의 독립 배포가 가능해져 운영 부담이 줄었다.
문제왓챠의 EC2 기반 ML 파이프라인은 자원 관리가 비효율적이고 환경 일관성 유지가 어려웠다. GPU 인스턴스 확보가 불안정했고 연구원 실험 환경도 빈약했다.
접근Docker와 Kubernetes로 작업별 독립 실행 환경을 만든다. On-premise GPU 서버를 도입해 학습 자원을 안정적으로 확보하고, S2S VPN으로 AWS와 연동했다. Argo Workflow로 파이프라인을 자동화하고 JupyterHub로 실험 환경을 제공했다.
결과파이프라인의 각 작업이 원하는 자원과 환경으로 독립 실행되도록 만들었다. 자원 효율과 연구원 실험 만족도가 함께 올라갔다.