인프라 / DevOps — pile·

최신

인프라 / DevOps·Vercel Blog·4일 전
서비스 간 안전한 내부 통신 구성
Vercel의 Service Bindings는 멀티 서비스 배포에서 서비스 간 안전한 내부 통신을 자동화한다. 한 서비스가 다른 서비스에 바인딩을 선언하면 Vercel이 환경 변수 주입, 내부 라우팅, TLS 암호화를 투명하게 처리해 공개 인터넷을 거치지 않고 HTTPS 통신이 가능하다.
#tls#microservices#service-bindings+1
인프라 / DevOps·Vercel Blog·4일 전
Vercel CLI 드라이런 배포로 실제 배포 전 구성 미리 확인하기
Vercel CLI v54.17.2부터 vercel deploy --dry 명령으로 실제 파일 업로드 없이 배포 구성을 미리 검사할 수 있다. 프레임워크 감지 결과, 포함/제외 파일 목록, 디렉터리 크기 분포, 콘텐츠 해시까지 사전에 확인하고 나서 배포를 결정할 수 있어 의도치 않은 배포 실패를 예방한다.
#ci-cd#deployment#vercel-cli+1
인프라 / DevOps·Vercel Blog·5일 전
Vercel Services: 단일 프로젝트에서 풀스택 실행하기
Vercel이 프론트엔드와 백엔드를 단일 프로젝트에서 통합 배포할 수 있는 Vercel Services를 출시했다. vercel.json 하나로 Next.js 프론트엔드와 FastAPI 백엔드를 선언하고, 내부 서비스 간 통신은 공개 인터넷을 경유하지 않는 private binding으로 처리한다.
#microservices#vercel#fluid-compute+2
인프라 / DevOps·Discord Blog·5일 전
Discord API의 기능별 비용 귀속 시스템
Discord가 1,700개 이상의 API 엔드포인트와 700개 백그라운드 태스크를 단일 Python 코드베이스로 수백 개 Kubernetes 배포에서 운영하면서 기능별 인프라 비용을 귀속시키는 시스템을 구축했다. 클라우드 제공사가 Kubernetes 배포 단위까지만 비용을 나눠주기 때문에 메시징·스트리밍 등 개별 기능의 실제 비용을 파악하기 어려웠고, CPU 시간 직접 샘플링으로 이 문제를 해결했다.
#kubernetes#cost-optimization#observability+2
인프라 / DevOps·Vercel Blog·5일 전
Vercel Functions에서 Dockerfile로 컨테이너 배포하기
Vercel Functions가 이제 Dockerfile 또는 Containerfile을 사용해 HTTP 서버를 Fluid compute에 직접 배포할 수 있게 됐다. OCI 호환 이미지라면 언어 제약 없이(Go, Rust, Python 등) 배포 가능하며, 커밋마다 이미지를 자동으로 빌드·VCR 푸시·배포한다.
#container#vercel#fluid-compute+2
인프라 / DevOps·네이버 D2·6일 전
End to End 유저 모니터링, RUM으로 한방에 해결
네이버 ENGINEERING DAY 2026 발표. 별도 외부 솔루션 없이 내부에서 구현한 End-to-End Real User Monitoring 서비스 nFront RUM을 소개한다. 추가 비용 없이 AI 분석 리포트까지 제공하며, 프론트엔드 서비스 품질을 사용자 관점에서 측정한다.
#observability#real-user-monitoring#ai-analytics+1
인프라 / DevOps·LINE Engineering·1주 전
Flava DBaaS 딥다이브: 아키텍처부터 마이그레이션, 그리고 미래까지
LY Corporation이 구 LINE의 Verda와 구 Yahoo Japan의 YNW를 통합하며 구축한 차세대 클라우드 플랫폼 Flava의 DBaaS 아키텍처를 상세히 설명한다. Kubernetes 오퍼레이터 패턴으로 DBA 도메인 지식을 코드화했고, 마이그레이션 전략부터 AI 기반 DBA-as-a-Service까지 미래 로드맵을 함께 다룬다.
#kubernetes#data-migration#dbaas+2
인프라 / DevOps·LY Corporation·1주 전
총 용량 1EB 초과! 서로 역사가 다른 두 HDFS를 어떻게 연결할까? 데이터 플랫폼 연계 중 직면한 과제와 설계 결정
구 LINE과 구 Yahoo Japan의 HDFS 플랫폼(총 용량 1EB 이상)을 통합하면서 직면한 기술적 과제와 아키텍처 설계 결정을 정리한 글이다. 두 조직은 ViewFS(클라이언트 측 Namespace 관리)와 RBF(서버 측 Namespace 통합)로 완전히 다른 철학으로 HDFS를 구축했으며, NameNode 성능 최적화, Kerberos Cross-Realm 인증, DistCP 기반 데이터 연계를 설계해 이를 연결했다.
#data-platform#distributed-storage#hdfs+2
인프라 / DevOps·LY Corporation·1주 전
코드형 인프라(IaC)로 자동화에서 AI까지: OpenTofu와 ChatOps 도입기
LY Corporation SRE1팀이 여러 팀에 산재한 인프라 관리 방식을 OpenTofu(Terraform 오픈소스 포크)와 Terragrunt 기반 IaC로 통합한 전 과정을 다룬다. 300여 대 VM, 160개 LB, 350개 DNS 레코드를 포함한 약 1,500개 리소스를 코드화하고, AI 에이전트와 MCP를 결합해 Slack 자연어 요청만으로 인프라 변경이 가능한 ChatOps 파이프라인까지 구현했다.
#chatops#terraform#gitops+2
인프라 / DevOps·Cloudflare Blog·2주 전
AI 에이전트를 위한 Cloudflare 임시 계정
AI 에이전트가 OAuth 인증 없이 Cloudflare Worker를 즉시 배포할 수 있는 임시 계정(Temporary Accounts) 기능을 Cloudflare가 출시했다. 기존 Wrangler CLI는 로그인이 필요해 에이전트 자동화 루프를 깼지만, `wrangler deploy --temporary` 한 줄로 에이전트가 자율 배포→검증 사이클을 완성할 수 있게 됐다.
#ai-agent#oauth#serverless+2
인프라 / DevOps·토스 SLASH·2주 전
Spark Connect on Kubernetes #1: 견고한 Spark Connect 만들기
토스증권 Data Infra팀이 Spark Connect를 Kubernetes 위에서 멀티테넌트 서비스로 운영하며 맞닥뜨린 구조적 문제 3가지(Driver SPOF, 리소스 경합, 고정 스케일)와 그 해결책을 다룬다. 단일 SparkContext를 공유하는 구조에서 한 사용자의 OOM 쿼리가 전체 세션을 종료하는 문제를, Executor 실패 카운터 재설계와 멀티 Replica 아키텍처로 극복했다.
#kubernetes#distributed-systems#apache-spark+2
인프라 / DevOps·AWS Korea Tech·2주 전
Amazon S3 Files, 도입 전 반드시 확인해야 할 3가지 고려사항
2026년 4월 정식 출시된 Amazon S3 Files는 S3 버킷을 파일시스템처럼 마운트해 사용할 수 있는 서비스다. 편의성이 높지만 비용 구조, 성능 특성, 운영 충돌이라는 세 가지 함정을 모르면 도입 후 과금 폭탄이나 예상치 못한 데이터 충돌이 발생할 수 있다. 이 글은 AWS TAM(테크니컬 어카운트 매니저)이 실측 데이터와 결정 트리로 체크리스트를 정리한 도입 실전 가이드다.
#cost-optimization#amazon-s3#s3-files+2
인프라 / DevOps·AWS Korea Tech·2주 전
에잇퍼센트의 Kiro CLI 기반 Amazon ECS 현대화 여정
에잇퍼센트가 레거시 EC2 기반 워크로드를 Kiro CLI와 오픈소스 AI-Driven Modernization Prompt Sets를 활용해 Amazon ECS Fargate로 전환한 사례다. 소규모 백엔드 팀이 기능 개발·장애 대응을 병행하면서도 내부 API는 2영업일, 메인 API는 약 2주 만에 전환을 완료했다. 월 운영 비용 약 76% 절감이라는 실측 성과도 달성했다.
#ci-cd#terraform#auto-scaling+2
인프라 / DevOps·AWS Architecture·2주 전
삼성이 AWS Lambda Response Streaming으로 실시간 가격 조회를 구현한 방법
삼성 이커머스의 가격 제공 시스템이 시간당 크론 잡 기반 캐싱에서 AWS Lambda Response Streaming을 활용한 실시간 스트리밍 아키텍처로 전환한 과정을 다룬다. 기존 방식은 30개 이상 제품 변형 조합의 폭발과 1시간 동기화 지연으로 플래시 세일 중 오래된 가격이 노출되는 문제가 있었다. 신규 아키텍처는 P90 레이턴시를 4,500ms에서 50ms로 90배 단축하고 인프라를 100개 이상 인스턴스에서 Lambda 5~10개로 단순화했다.
#streaming#serverless#cloudfront+2
인프라 / DevOps·LG U+·2주 전
종료했는데 왜 502·504가 날까? K8s 무중단 배포를 위한 팁
Amazon EKS 환경에서 무중단 배포(Rolling Update/Blue-Green)를 적용했음에도 간헐적으로 502 Bad Gateway·504 Gateway Timeout이 발생하는 근본 원인과 해결책을 다룬다. ALB·K8s·Istio·Argo Rollouts의 종료 시퀀스가 어긋나는 타이밍 문제가 핵심이며, terminationGracePeriodSeconds·preStop hook·ALB deregistration_delay 세 축을 정렬해 해결한다.
#kubernetes#graceful-shutdown#istio+2
인프라 / DevOps·Twilio Engineering·2주 전
음성 재해 복구는 구현 전 준비가 전부다
Twilio 엔지니어가 2025년 리전 클라우드 장애에서 드러난 음성 재해 복구(Voice DR)의 맹점을 분석하고, 구현 시작 전 준비가 성패를 가른다는 6단계 프레임워크를 제시했다. 음성 통화는 요청을 재시도할 수 없는 실시간 동기 인터랙션이라 10초 침묵만으로도 발신자가 이탈할 수 있어, 복구는 플랫폼·애플리케이션·옵저버빌리티 세 계층의 사전 조율에 달려있다.
#observability#sre#voice+2
인프라 / DevOps·Cloudflare Blog·3주 전
Kafka·PostgreSQL 최적화로 보안 스캔 처리량 12배 높이기
Cloudflare가 Security Insights 스캔 시스템의 처리량을 초당 10건에서 120건 이상으로 12배 끌어올린 과정을 다룬다. 추가 하드웨어 없이 Kafka 소비자, PostgreSQL 쿼리, API 아키텍처 최적화만으로 달성했으며, 스캔 주기를 주 1~2회에서 플랜별 1~7일로 대폭 단축했다.
#kafka#postgres#go+2
인프라 / DevOps·Cloudflare Blog·3주 전
퍼블릭 트래픽을 프라이빗 앱으로 라우팅: Cloudflare Private Origins
Cloudflare가 공개 호스트명을 통해 프라이빗 네트워크의 내부 애플리케이션으로 트래픽을 라우팅하는 "Application Services for Private Origins"를 엔터프라이즈 대상 폐쇄 베타로 공개했다. 기존에는 내부 앱에 Cloudflare 보안·성능 레이어를 적용하려면 공개 IP를 노출하거나 커넥터 소프트웨어를 설치해야 했지만, 이 기능은 DNS 레코드에 use_private_routing: true 플래그를 추가하는 것만으로 가능하게 한다. IPsec·GRE·CNI·Cloudflare Mesh 등 기존 연결 방식을 그대로 활용하며, WAF·봇 관리·캐싱 등 기존 Application Services를 프라이빗 오리진에도 적용할 수 있다.
#zero-trust#cloudflare#ipsec+2
인프라 / DevOps·AWS Architecture·3주 전
Amazon Bedrock과 AWS HealthLake로 의료 기록 디지털화 자동화
AWS는 Amazon Bedrock Data Automation과 AWS HealthLake를 조합해 스캔된 PDF 의료 기록을 FHIR R4 구조화 데이터로 자동 변환하는 서버리스 파이프라인 아키텍처를 소개한다. 수동 데이터 입력 비용과 비구조화 문서 통합 문제를 이벤트 기반 Lambda 오케스트레이션으로 해결한다.
#amazon-bedrock#serverless#aws-lambda+2
인프라 / DevOps·AWS Korea Tech·3주 전
AWS 공간 데이터를 활용한 건물 검사 인텔리전스 구축
AWS SDMA(Spatial Data Management and Analytics)를 이용해 건물 검사 워크플로를 개선하는 레퍼런스 아키텍처를 소개한다. 기존 검사 프로그램이 생성하는 이미지·관측 데이터가 독립 파일로 흩어져 재사용이 어렵다는 문제를 "공간 참조 데이터"로 취급해 해결한다.
#aws#serverless#computer-vision+2