pile·
DB / 데이터·linkedin-engLinkedIn Engineering·

Gobblin: 배치와 스트리밍 데이터 수집을 통합하다

문제LinkedIn은 15개 이상의 독립 데이터 파이프라인을 운영하며 오류 모드, 품질 관리, 확장성이 제각각이어서 운영 복잡도가 폭증했다.
접근Gobblin 통합 수집 프레임워크 구축. Salesforce, Kafka, S3, MySQL 등 12개 이상 소스 지원. MapReduce 배치(10분 주기) + YARN/Helix 기반 연속 수집 모드 병행.
결과하루 수백 테라바이트, 1,000개 Kafka 토픽 처리. v0.5.0 오픈소스 공개 후 커뮤니티 기여(Kafka 추출기, S3 통합 등)로 빠르게 확산.
linkedin-eng
LinkedIn Engineering 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. DB / 데이터·pinterest-engPinterest Engineering·

    Pinterest 차세대 DB 수집 프레임워크의 자동화된 스키마 진화

    Pinterest의 CDC 기반 DB 수집 파이프라인은 MySQL에서 Kafka, Flink, Spark, Iceberg를 거치는 다층 구조다. 스키마 변경이 생기면 모든 계층을 동시에 업데이트해야 해 드리프트, 배포 실패, 데이터 불일치가 반복됐다. Pinterest 엔지니어링 팀은 이를 해결하기 위해 가산적 변경만 자동화하는 스키마 진화 프레임워크를 구축하고, PR 기반 롤아웃과 SLA 기반 일관성 모델을 도입했다.

    #data-pipeline#apache-flink#cdc+2