pile·
DB / 데이터·meta-engmeta-eng·

Meta 규모의 데이터 적재 시스템 마이그레이션

문제Meta의 MySQL 기반 social graph ingestion은 petabyte 규모와 엄격한 landing latency 요구가 커지며 레거시 파이프라인 안정성이 한계에 닿았다.

접근CDC 기반 신규 시스템으로 shadow, canary, partial, full migration 수명주기를 설계하고 row count·checksum·latency·resource 기준으로 검증한다.

결과전체 워크로드를 신규 ingestion 서비스로 이전하고 레거시 시스템을 폐기했다. 기존 snapshot 재사용으로 불필요한 full dump 비용도 줄였다.

meta-eng
meta-eng 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. DB / 데이터·airbnb-engairbnb-eng·

    Airbnb identity graph 를 통합 knowledge graph 인프라로 확장하기

    문제Airbnb의 identity graph는 70억 노드와 110억 엣지, 복잡한 4~8 hop 쿼리로 장기 지연과 운영 불안정이 커졌다.

    접근JanusGraph, DynamoDB, OpenSearch 기반의 내부 멀티테넌트 graph infrastructure로 이전했다. Gremlin 쿼리 재작성, 병렬 getMultiSlices, DynamoDB 조건부 쓰기로 병목을 줄였다.

    결과모든 주요 graph query 패턴에서 기존 벤더보다 낮은 지연을 보였다. P99 장기 지연을 줄이고 write QPS를 기존 대비 10배까지 확장했다.

    #data-platform#knowledge-graph#identity-graph
  2. DB / 데이터·cloudflare-blogcloudflare-blog·

    갑자기 느려진 빌링 파이프라인 — ClickHouse 안에 숨어 있던 병목

    문제ClickHouse 파티션 키 변경 뒤 청구 집계 쿼리가 느려졌지만 I/O, 메모리, 읽은 파트 수 지표는 정상으로 보였다.

    접근trace_log와 flame graph로 쿼리 플래너의 MergeTreeData mutex 경합, 벡터 복사, 선형 파트 필터링을 찾아 공유 락·캐시·이진 탐색 패치를 적용했다.

    결과락 경합을 제거하고 2026년 3월 패치로 쿼리 시간이 50% 감소했으며, 파트 수와 지연의 상관을 끊었다.

    #clickhouse#lock-contention#query-planner
  3. DB / 데이터·AWS KoreaAWS Korea·

    Amazon ElastiCache for Valkey의 CESC로 Interactive AI 스토리텔링 플랫폼 최적화하기

    문제Interactive AI 스토리텔링 플랫폼 타닥(뷰컴즈) 이 실시간 이미지 생성 응답 3~5초, 비용 부담이 큼.

    접근CESC(Context Enabled Semantic Caching) — 사용자 입력·월드 메타·캐릭터 상태를 벡터화해 ElastiCache for Valkey 에 저장. 유사 과거 요청 검색해 캐시 이미지 즉시 반환. Valkey GLIDE 클라이언트 하이브리드 검색 + LLM 검증으로 환각 방지.

    결과캐시 적중 시 응답 100ms 미만(98% 단축). 전체 트래픽 35% 캐시 처리. 월 1,750만 원 생성 비용 절감.

    #embedding#aws#valkey+2