pile·
DB / 데이터·뱅크샐러드뱅크샐러드·

점점 커지는 RDB Table, S3로 귀양 보내고 Athena로 불러오기 - feat. Optimization with Spark Bucketing

문제신용올리기 서비스의 마이데이터 이벤트 로그가 MySQL에 쌓이며 비용이 급증했고, S3로 옮긴 뒤에도 Athena 풀스캔으로 조회 비용이 폭증했다.
접근사용자 ID 기준 Spark Bucketing으로 특정 사용자의 데이터 위치를 사전에 파악했다. 파티션을 dt·hour에서 dt 단위로 축소하고, Athena 호환을 위해 CTAS 임시 테이블을 활용했다. Executor당 파일 중복은 repartition으로 정리했다.
결과S3 Object 호출 수가 약 700배 감소했다. MySQL 저장 비용 절감액이 늘어난 조회 비용의 약 3배로 전체 비용도 줄었다.
뱅크샐러드
뱅크샐러드 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. DB / 데이터·pinterest-engPinterest Engineering·

    Pinterest 차세대 DB 수집 프레임워크의 자동화된 스키마 진화

    Pinterest의 CDC 기반 DB 수집 파이프라인은 MySQL에서 Kafka, Flink, Spark, Iceberg를 거치는 다층 구조다. 스키마 변경이 생기면 모든 계층을 동시에 업데이트해야 해 드리프트, 배포 실패, 데이터 불일치가 반복됐다. Pinterest 엔지니어링 팀은 이를 해결하기 위해 가산적 변경만 자동화하는 스키마 진화 프레임워크를 구축하고, PR 기반 롤아웃과 SLA 기반 일관성 모델을 도입했다.

    #data-pipeline#apache-flink#cdc+2