pile·
DB / 데이터·discord-blogdiscord-blog·

Discord 의 ScyllaDB 클러스터 운영 자동화

문제ScyllaDB 클러스터 증설과 OS 업그레이드는 수십 시간 동안 엔지니어가 순서와 상태를 직접 관리해야 하는 고위험 운영이었다.

접근SCP 워크플로 YAML에 zone-aware batching, 노드별 precondition, Salt highstate, health wait, webhook 알림과 재시도를 조합했다.

결과36시간짜리 운영을 2시간 이내의 자동화 작업으로 줄이고, 클러스터 생성·확장·롤링 업그레이드를 신뢰 가능한 워크플로로 만들었다.

discord-blog
discord-blog 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. DB / 데이터·airbnb-engairbnb-eng·

    Airbnb identity graph 를 통합 knowledge graph 인프라로 확장하기

    문제Airbnb의 identity graph는 70억 노드와 110억 엣지, 복잡한 4~8 hop 쿼리로 장기 지연과 운영 불안정이 커졌다.

    접근JanusGraph, DynamoDB, OpenSearch 기반의 내부 멀티테넌트 graph infrastructure로 이전했다. Gremlin 쿼리 재작성, 병렬 getMultiSlices, DynamoDB 조건부 쓰기로 병목을 줄였다.

    결과모든 주요 graph query 패턴에서 기존 벤더보다 낮은 지연을 보였다. P99 장기 지연을 줄이고 write QPS를 기존 대비 10배까지 확장했다.

    #data-platform#knowledge-graph#identity-graph
  2. DB / 데이터·cloudflare-blogcloudflare-blog·

    갑자기 느려진 빌링 파이프라인 — ClickHouse 안에 숨어 있던 병목

    문제ClickHouse 파티션 키 변경 뒤 청구 집계 쿼리가 느려졌지만 I/O, 메모리, 읽은 파트 수 지표는 정상으로 보였다.

    접근trace_log와 flame graph로 쿼리 플래너의 MergeTreeData mutex 경합, 벡터 복사, 선형 파트 필터링을 찾아 공유 락·캐시·이진 탐색 패치를 적용했다.

    결과락 경합을 제거하고 2026년 3월 패치로 쿼리 시간이 50% 감소했으며, 파트 수와 지연의 상관을 끊었다.

    #clickhouse#lock-contention#query-planner
  3. DB / 데이터·AWS KoreaAWS Korea·

    Amazon ElastiCache for Valkey의 CESC로 Interactive AI 스토리텔링 플랫폼 최적화하기

    문제Interactive AI 스토리텔링 플랫폼 타닥(뷰컴즈) 이 실시간 이미지 생성 응답 3~5초, 비용 부담이 큼.

    접근CESC(Context Enabled Semantic Caching) — 사용자 입력·월드 메타·캐릭터 상태를 벡터화해 ElastiCache for Valkey 에 저장. 유사 과거 요청 검색해 캐시 이미지 즉시 반환. Valkey GLIDE 클라이언트 하이브리드 검색 + LLM 검증으로 환각 방지.

    결과캐시 적중 시 응답 100ms 미만(98% 단축). 전체 트래픽 35% 캐시 처리. 월 1,750만 원 생성 비용 절감.

    #embedding#aws#valkey+2