Kafka·PostgreSQL 최적화로 보안 스캔 처리량 12배 높이기
Cloudflare가 Security Insights 스캔 시스템의 처리량을 초당 10건에서 120건 이상으로 12배 끌어올린 과정을 다룬다. 추가 하드웨어 없이 Kafka 소비자, PostgreSQL 쿼리, API 아키텍처 최적화만으로 달성했으며, 스캔 주기를 주 1~2회에서 플랜별 1~7일로 대폭 단축했다.
Cloudflare가 Security Insights 스캔 시스템의 처리량을 초당 10건에서 120건 이상으로 12배 끌어올린 과정을 다룬다. 추가 하드웨어 없이 Kafka 소비자, PostgreSQL 쿼리, API 아키텍처 최적화만으로 달성했으며, 스캔 주기를 주 1~2회에서 플랜별 1~7일로 대폭 단축했다.
KBO 라이브 방송 이닝 교체 시 모든 시청자가 동시에 광고를 요청해 SSAI 서버 병목이 발생했다.
Kafka 토픽 생성 시 파티션 개수를 일관된 기준 없이 결정해 운영 편차가 컸다.
10년 누적 프로시저 기반 배치로 혜택 정보가 최대 45분 지연돼 고객 경험이 저하됐다.
HR SaaS 에서 직원 부서 변경이 일어나면 급여/근무정책/권한 시스템이 원자적으로 같이 반영돼야 하는데 Dual Write 는 둘 중 하나만 실패해도 불일치를 만든다.
HR SaaS 는 한 사람이 여러 역할을 겸임하고 조직 관계에 따라 권한이 동적으로 바뀌어서 RBAC 만으로는 "인사팀이면서 마케팅 매니저인 사람이 다른 부서원의 급여 명세서를 볼 수 있나" 같은 복합 판단이 어렵다.
MSA 환경에서 프로모션·픽업 주문 등 흩어진 도메인 데이터를 통합하면서 API 호출 부하를 최소화해야 했다.
SSG.COM의 MSA 환경에서 노출 누락·데이터 이상 문의가 들어올 때마다 DB, 로그, 소스를 수동으로 오가야 해 운영 대응이 비효율적이었다.
올리브영 앱의 매장 서비스가 파편화돼 고객이 오프라인 매장의 프로모션과 경험을 인지하지 못해 방문 유도가 어려웠다.
레거시 알림톡 발송 로직이 여러 비즈니스 코드에 산재되고 데이터 조회 기준이 달라 일관성이 부족했다.
1,300 개 매장의 수백만 종이라벨을 수동 관리하면서 프로모션 기간 업무 과중과 재고 정보 지연이 반복됐다.
기존 Kafka·MSK 운영은 CLI와 콘솔, 시스템별로 다른 API 포맷에 묶여 있어 일관된 자동화와 자연어 기반 조작이 어려웠다.
스타트업 개발자는 Node.js와 Spring, 모놀리식과 MSA, 클라우드와 온프레미스 같은 기술 의사결정을 짧은 시간에 반복해야 하는데, 설계 단계에서 놓치는 함정이 많다.
ODI 기반 배치 동기화(20분~1시간 주기)로 고객의 마케팅 동의 철회·쿠폰 발급이 즉시 반영되지 않아 타겟팅 오류와 소스 DB 과부하가 발생했다.
Oracle 함수 직접 호출 구조로 DB 과부하가 발생하고 대규모 트래픽(올영세일) 시 품절 정보 조회가 지연돼 서비스 품질이 저하됐다.
새벽 배치 작업이 DynamoDB 자원을 독점해 대고객 실시간 API에 쓰로틀링 에러가 발생했다.
외부 Batch Scheduler 솔루션의 지속적 운영 비용·커스터마이징 한계·장애 대응 어려움으로 내재화가 필요했다.
외부 상용 이미지 처리 솔루션의 라이선스 비용 부담과 상품 이미지 실시간 변환(리사이징·포맷·압축) 성능 이슈
글로벌 WMS 구축에 빅뱅 배포 방식을 채택해 기존 시스템을 한 번에 전환해야 했고, 백오피스·WCS 등 다수 연계 시스템과의 인터페이스 리스크가 컸다.
수십 개 DSP와 개별 계약, 워터폴 설정, eCPM 최적화의 끝없는 A/B 테스트로 광고 수익화 운영 복잡성이 과도했다.