pile·
DB / 데이터·discord-blogDiscord Blog·

Discord 의 ScyllaDB 클러스터 운영 자동화

문제ScyllaDB 클러스터 증설과 OS 업그레이드는 수십 시간 동안 엔지니어가 순서와 상태를 직접 관리해야 하는 고위험 운영이었다.
접근SCP 워크플로 YAML에 zone-aware batching, 노드별 precondition, Salt highstate, health wait, webhook 알림과 재시도를 조합했다.
결과36시간짜리 운영을 2시간 이내의 자동화 작업으로 줄이고, 클러스터 생성·확장·롤링 업그레이드를 신뢰 가능한 워크플로로 만들었다.
discord-blog
Discord Blog 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. DB / 데이터·pinterest-engPinterest Engineering·

    Pinterest 차세대 DB 수집 프레임워크의 자동화된 스키마 진화

    Pinterest의 CDC 기반 DB 수집 파이프라인은 MySQL에서 Kafka, Flink, Spark, Iceberg를 거치는 다층 구조다. 스키마 변경이 생기면 모든 계층을 동시에 업데이트해야 해 드리프트, 배포 실패, 데이터 불일치가 반복됐다. Pinterest 엔지니어링 팀은 이를 해결하기 위해 가산적 변경만 자동화하는 스키마 진화 프레임워크를 구축하고, PR 기반 롤아웃과 SLA 기반 일관성 모델을 도입했다.

    #data-pipeline#apache-flink#cdc+2