Accelerating Coupang’s AI Journey with LLMs

문제쿠팡은 한국어·중국어 다국어 콘텐츠 처리와 대규모 LLM 학습·추론을 동시에 풀어야 했고, GPU 공급 부족과 디바이스 메모리 제약이 학습·서빙 양쪽에서 큰 병목이었다.

접근Qwen·LLaMA·T5 등 3B~20B 규모 오픈소스 모델을 골라 DeepSpeed Zero 로 모델 병렬화하고, 클라우드와 온프레미스를 묶은 다중 리전 GPU 클러스터를 구성했다. 실시간 추론은 NVIDIA Triton, 배치 추론은 Ray 와 vLLM 으로 운영하며 in-context learning·RAG·SFT·continued pre-training 을 함께 활용한다.

결과vLLM 도입으로 추론 처리량이 약 20배 늘었다. 이미지-텍스트 결합 모델로 임베딩 품질을 끌어올리고, 약한 라벨 자동 생성과 다중 카테고리 통합 분류기로 라벨 부족·운영 비용 문제를 함께 해결했다.