pile·
아키텍처·라포랩스 (퀸잇)라포랩스 (퀸잇)·

플랫폼은 왜 계속 다시 설계되어야 할까 - Server Platform Team 이야기

라포랩스 Server Platform Team 이 조직 성장에 맞춰 배포·권한·이벤트·부팅 같은 플랫폼 기반을 계속 다시 설계한 이야기를 인터뷰 형식으로 다룬다. "좋은 플랫폼은 책에서 가져올 수 없고 회사 규모·팀 구조·제품 이터레이션을 관찰한 결과로만 나온다"는 철학 아래, 자율성과 안정성의 균형을 맞춘 사례들을 짚는다.

핵심 포인트
  • ArgoCD 기반 자율 배포로 주 2~3회를 일 2~30회로 늘리되, Grafana+Slack 으로 배포 가시성을 강제했다.
  • 어드민 권한을 API별 allowlist 에서 크리티컬·일반 액션 분류로 바꿔 Keycloak 토큰 페이로드 폭증을 해결했다.
  • Debezium 강결합으로 인한 이벤트 SPOF 를 플랫폼 표준 파이프라인 통합으로 개선 중이다.
  • Spring Boot 부팅 시간을 50% 이상 줄여 HPA·스팟 인스턴스 교체 시 가용성을 높였고 Spring Data Commons 버그를 기여했다.
  • ADR·정기 sync 로 자율성이 흩뜨리는 의사결정 맥락을 다시 모은다.
상세 정리
  • 배경: 조직 확대로 배포 병목, 마이크로서비스 전환에 따른 서버 급증, 어드민 권한 확장 한계, 이벤트 전달 SPOF 가 동시에 불거졌다.
  • 설계 철학: 초기 가정이 시간과 함께 무효화되므로 기술 의사결정을 지속 재평가하고, 정책과 기술을 병행 개선한다.
  • CI/CD: ArgoCD 로 중앙 배포를 자율 배포로 바꿔 주 2~3회를 일 2~30회로 늘렸으나 장애가 늘자, Grafana 대시보드+Slack 으로 누가·언제·어떤 형상으로 배포했는지 가시화하고 ArgoCD UI 에 Canary 제어를 통합했다.
  • 권한 시스템: API마다 사용자 allowlist 를 수동 추가하다 토큰 페이로드가 폭증해, 보안팀과 크리티컬 액션(정산금·개인정보)과 일반 액션을 분류해 토큰 크기와 개발자 부담을 함께 줄였다.
  • 이벤트 메시징: Debezium 강한 의존으로 SPOF 위험이 있어, 서비스별 메시지 재처리·로깅 로직을 플랫폼 표준 파이프라인으로 통합하는 작업을 진행 중이다.
  • 부팅 최적화: Spring Boot 부팅 시간을 50% 이상 줄여 HPA 확장·스팟 교체 시 응답 지연을 낮췄고, 그 과정에서 발견한 Spring Data Commons 버그를 오픈소스에 기여했다.
  • AI 활용: VictoriaMetrics·Log·Trace 를 MCP 로 연결해 일주일 걸리던 분석을 1~2시간으로 줄이고, 코딩 작업도 한 달치를 일주일로 단축했다.
  • 가드레일: AI 자율성이 커지며 자율과 통제의 균형이 핵심 과제가 됐고, 4월 인프라 삭제 장애 후 구글 SRE 사례를 참고해 포스트모템 양식을 개편하고 협업 가드레일을 재수립 중이다.
  • 협업: 자율성이 동료 작업의 가정·방향을 흐리는 걸 막으려 목요일 Server Platform Sync, ADR 도입, 테크 스펙 공유로 의사결정을 한자리에 모은다.
왜 읽나성장하는 조직에서 배포·권한·이벤트 플랫폼을 책임지는 플랫폼 엔지니어에게, 자율성과 안정성을 함께 끌어올린 구체적 의사결정 레퍼런스.
라포랩스 (퀸잇)
라포랩스 (퀸잇) 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. 아키텍처·cloudflare-blogCloudflare Blog·

    Monetization Gateway 공개: x402로 Cloudflare 뒤 모든 리소스에 과금하기

    Cloudflare가 HTTP 402 상태 코드를 재활용한 오픈 결제 프로토콜 x402와 스테이블코인 정산을 결합한 Monetization Gateway를 발표했다. 웹페이지·데이터셋·API·MCP 도구 어디든 Cloudflare 뒤에 놓으면 사용량 기반 마이크로페이먼트를 붙일 수 있다. AI 에이전트가 광고를 안 보고 구독도 유지하지 않는 시대에, 개발자와 퍼블리셔가 콘텐츠·도구를 직접 과금할 수 있는 인프라를 엣지에서 제공하는 것이 핵심이다.

    #http-protocol#x402#micropayment+2
  2. 아키텍처·cloudflare-blogCloudflare Blog·

    Cloudflare Workflows에 사가 롤백을 구현한 방법

    Cloudflare Workflows 엔진에 사가(Saga) 패턴 롤백 기능을 추가한 과정을 다룬다. 다단계 워크플로우에서 중간 단계가 실패했을 때 이전 단계의 부작용을 되돌리는 보상 로직(compensating action)을 각 step에 선언적으로 정의할 수 있게 됐다. Workers RPC의 callable reference를 활용해 엔진 재시작 후에도 핸들러를 복구할 수 있는 내구적 설계를 택했다.

    #workflow-engine#cloudflare-workers#saga-pattern+2
  3. 아키텍처·LY CorporationLY Corporation·

    AI 시대의 개발 능력은 검증력으로 결정된다, Flava API Gateway 개발 중 배운 빠른 검증과 로컬 환경 구성 전략

    LY Corporation 의 Flava API Gateway 개발팀이 AI 코딩 에이전트 도입 후 직면한 "빠른 코드 생성 vs 느린 검증" 문제를 해결한 전략을 공유한다. 스펙 주도 개발, 검증 자동화, 로컬 환경 재현성의 세 축으로 접근해 AI 에이전트가 즉각적인 피드백 루프 안에서 안정적으로 작동할 수 있는 개발 기반을 구축했다.

    #ai-agent#test-automation#openapi+2