pile·
DB / 데이터·당근당근 테크블로그·

당근 200+개 DB 를 옮기는 ELT 플랫폼, DT Platform 을 만든 이야기

문제200개 이상 DB의 파이프라인 설정과 실행 코드가 단일 레포에 결합되어 서비스팀이 테이블 추가 시 복잡한 코드베이스를 직접 익혀야 했다.
접근JSON DSL로 설정·실행을 분리해 웹 UI에서 선언적으로 파이프라인을 정의하고, Airflow 동적 DAG와 Spark on EMR/EKS로 BigQuery에 ELT를 수행하는 DT Platform을 구축했다.
결과멀티에이전트 방식으로 203개 파이프라인을 2주 만에 마이그레이션 완료. 파이프라인 변경 리드타임이 크게 감소하고 서비스팀이 데이터팀 없이 직접 파이프라인을 관리할 수 있게 됐다.
당근
당근 테크블로그 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. DB / 데이터·pinterest-engPinterest Engineering·

    Pinterest 차세대 DB 수집 프레임워크의 자동화된 스키마 진화

    Pinterest의 CDC 기반 DB 수집 파이프라인은 MySQL에서 Kafka, Flink, Spark, Iceberg를 거치는 다층 구조다. 스키마 변경이 생기면 모든 계층을 동시에 업데이트해야 해 드리프트, 배포 실패, 데이터 불일치가 반복됐다. Pinterest 엔지니어링 팀은 이를 해결하기 위해 가산적 변경만 자동화하는 스키마 진화 프레임워크를 구축하고, PR 기반 롤아웃과 SLA 기반 일관성 모델을 도입했다.

    #data-pipeline#apache-flink#cdc+2