pile·
DB / 데이터·discord-blogdiscord-blog·

적게 측정해서 더 많이 배우기 — 핵심을 잡는 소수 고품질 메트릭

문제실험 기본 지표가 50개 수준으로 늘면서 다중 비교 보정이 실제 효과 탐지력을 낮췄다.

접근Benjamini-Hochberg 보정의 false alarm/recall trade-off를 시뮬레이션하고, 상관분석과 PCA로 중복 지표를 찾았다.

결과기본 지표를 약 50개에서 15개로 줄여 중간 크기 효과를 잡는 능력을 약 45% 개선했다.

discord-blog
discord-blog 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. DB / 데이터·airbnb-engairbnb-eng·

    Airbnb identity graph 를 통합 knowledge graph 인프라로 확장하기

    문제Airbnb의 identity graph는 70억 노드와 110억 엣지, 복잡한 4~8 hop 쿼리로 장기 지연과 운영 불안정이 커졌다.

    접근JanusGraph, DynamoDB, OpenSearch 기반의 내부 멀티테넌트 graph infrastructure로 이전했다. Gremlin 쿼리 재작성, 병렬 getMultiSlices, DynamoDB 조건부 쓰기로 병목을 줄였다.

    결과모든 주요 graph query 패턴에서 기존 벤더보다 낮은 지연을 보였다. P99 장기 지연을 줄이고 write QPS를 기존 대비 10배까지 확장했다.

    #data-platform#knowledge-graph#identity-graph
  2. DB / 데이터·cloudflare-blogcloudflare-blog·

    갑자기 느려진 빌링 파이프라인 — ClickHouse 안에 숨어 있던 병목

    문제ClickHouse 파티션 키 변경 뒤 청구 집계 쿼리가 느려졌지만 I/O, 메모리, 읽은 파트 수 지표는 정상으로 보였다.

    접근trace_log와 flame graph로 쿼리 플래너의 MergeTreeData mutex 경합, 벡터 복사, 선형 파트 필터링을 찾아 공유 락·캐시·이진 탐색 패치를 적용했다.

    결과락 경합을 제거하고 2026년 3월 패치로 쿼리 시간이 50% 감소했으며, 파트 수와 지연의 상관을 끊었다.

    #clickhouse#lock-contention#query-planner
  3. DB / 데이터·AWS KoreaAWS Korea·

    Amazon ElastiCache for Valkey의 CESC로 Interactive AI 스토리텔링 플랫폼 최적화하기

    문제Interactive AI 스토리텔링 플랫폼 타닥(뷰컴즈) 이 실시간 이미지 생성 응답 3~5초, 비용 부담이 큼.

    접근CESC(Context Enabled Semantic Caching) — 사용자 입력·월드 메타·캐릭터 상태를 벡터화해 ElastiCache for Valkey 에 저장. 유사 과거 요청 검색해 캐시 이미지 즉시 반환. Valkey GLIDE 클라이언트 하이브리드 검색 + LLM 검증으로 환각 방지.

    결과캐시 적중 시 응답 100ms 미만(98% 단축). 전체 트래픽 35% 캐시 처리. 월 1,750만 원 생성 비용 절감.

    #embedding#aws#valkey+2