pile·
백엔드·모두싸인모두싸인·

로그 인리치먼트(Log Enrichment)

모두사인이 하루 수억 건의 감사 로그에 메타데이터와 컨텍스트를 추가하는 로그 인리치먼트 시스템을 비동기 아키텍처로 구현한 과정을 다룬다. 동기 방식은 서비스 성능에 직접적인 영향을 주기 때문에 비동기 파이프라인을 선택했고, CDC·Kafka·S3를 조합해 중복·삭제·컴플라이언스 요구사항을 모두 해결했다.

핵심 포인트
  • 로그 인리치먼트를 비동기로 설계해 서비스 메인 경로에 지연을 추가하지 않고 하루 수억 건을 처리한다.
  • 서비스를 직접 호출하지 않고 CDC로 별도 메타데이터 저장소를 동기화해 서비스 간 의존성과 삭제 리소스 문제를 동시에 해결했다.
  • Kafka 스트리밍 → 중간 표현 인리치먼트 → S3 파티셔닝 저장의 파이프라인으로 조회 효율을 높였다.
  • 오프셋 기반 파일 네이밍으로 Kafka 리플레이 시 발생하는 중복 로그를 제거한다.
  • ISMS-P와 CSAP 보안 인증 요구사항을 이 아키텍처로 충족한다.
상세 정리
  • 문제: 하루 수억 건 로그에 사용자·워크스페이스 메타데이터를 실시간으로 붙여야 하는데, 동기 방식은 로그 기록마다 서비스를 호출해 레이턴시 증가와 장애 연쇄 위험이 있었다.
  • 비동기 선택 이유: 로그 생성 시점과 인리치먼트 시점을 분리해 메인 서비스에 지연을 추가하지 않고, 트래픽 급증 시에도 파이프라인이 독립적으로 동작한다.
  • CDC 기반 메타데이터 저장소: 원본 서비스에 직접 쿼리하는 대신 CDC로 변경 데이터를 별도 저장소에 복제. 리소스가 삭제된 후에도 인리치먼트 완료가 가능하다.
  • Kafka 파이프라인: 로그 이벤트를 Kafka로 수신 → 중간 표현(intermediate representation)으로 인리치먼트 처리 → 결과를 S3에 저장하는 3단계 흐름.
  • S3 파티셔닝: 워크스페이스·시간 기준으로 분할해 특정 워크스페이스의 특정 기간 감사 로그를 최소 파일 읽기로 추출할 수 있다.
  • 중복 제거: Kafka 리플레이 발생 시 같은 로그가 재처리될 수 있는데, 오프셋 기반 파일 네이밍으로 동일 오프셋 파일을 덮어써 중복을 제거한다.
  • 컴플라이언스: ISMS-P(정보보호 관리체계)와 CSAP(클라우드 보안 인증) 요구사항을 이 아키텍처로 충족한다.
왜 읽나대규모 감사 로그 파이프라인을 설계하거나 CDC/Kafka/S3 기반 로그 인리치먼트를 구축하려는 백엔드 엔지니어에게 실제 운영 아키텍처와 설계 근거를 확인할 수 있다.
모두싸인
모두싸인 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. 백엔드·cloudflare-blogCloudflare Blog·

    hyper HTTP 라이브러리의 버그를 발견한 방법

    Cloudflare의 Images 서비스를 Unix 소켓 기반 아키텍처로 재구성한 후, 대용량 이미지 응답이 중간에 잘리는 버그가 발생했다. 14.8MB 응답에서 219KB만 전달되고 HTTP 200 OK는 정상 반환되어 애플리케이션 레벨에서 탐지가 불가능했다. 원인은 hyper 라이브러리의 dispatch 루프에서 flush 완료 여부를 확인하지 않고 연결을 종료하는 경쟁 조건이었으며, strace로 커널 호출 순서를 추적해 root cause를 특정했다. 최종 수정은 upstream PR #4018로 hyper 레포에 병합됐다.

    #rust#debugging#race-condition+2
  2. 백엔드·stackoverflow-blogStack Overflow Blog·

    CherryScript — 데이터 파이프라인을 위한 커스텀 Python 인터프리터 설계

    CherryScript는 데이터 기반 워크플로우 최적화를 위한 커스텀 DSL로, Python 기반 인터프리터로 구현됐다. 일반 Python 인터프리터의 메모리 병목과 AST 트리워킹 성능 문제를 극복하기 위해 스트리밍 렉서, 바이트코드 컴파일, 불변 상태 관리의 세 가지 최적화 전략을 채택했다.

    #dsl#python#interpreter+2