pile·
DB / 데이터·Hyperconnect하이퍼커넥트·

Super Disk 로 만든 회복탄력성 높은 고성능 ScyllaDB 클러스터

문제Hyperconnect 의 전사 NoSQL 인 ScyllaDB 클러스터에서 cluster rolling update 시 노드 복구 시간이 지나치게 길었다. ML feature store 등 핵심 서비스의 가용성에 영향을 준다.
접근Write-mostly RAID 인 Super Disk 기능을 도입. write 트래픽을 빠른 디스크 그룹으로 흡수해 복구 I/O 를 단축한다. Kubernetes 환경 관리는 Windmill 기반 자동화로 처리.
결과Rolling update 복구 시간을 기존 대비 최대 10배 단축했다. 운영 자동화로 ScyllaDB 클러스터의 회복탄력성을 높였다.
Hyperconnect
하이퍼커넥트 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. DB / 데이터·pinterest-engPinterest Engineering·

    Pinterest 차세대 DB 수집 프레임워크의 자동화된 스키마 진화

    Pinterest의 CDC 기반 DB 수집 파이프라인은 MySQL에서 Kafka, Flink, Spark, Iceberg를 거치는 다층 구조다. 스키마 변경이 생기면 모든 계층을 동시에 업데이트해야 해 드리프트, 배포 실패, 데이터 불일치가 반복됐다. Pinterest 엔지니어링 팀은 이를 해결하기 위해 가산적 변경만 자동화하는 스키마 진화 프레임워크를 구축하고, PR 기반 롤아웃과 SLA 기반 일관성 모델을 도입했다.

    #data-pipeline#apache-flink#cdc+2