pile·
최신
  1. 인프라 / DevOps·베스핀글로벌베스핀글로벌·

    엔비디아 쓰던 빅테크들, 왜 직접 ‘AI 칩’ 설계에 뛰어드나?

    문제2026 년 AI 연산의 66% 가 추론에서 발생할 전망. 범용 GPU 는 학습엔 강하지만 추론 환경에서 전력·단가 비효율.

    접근빅테크들이 ASIC(주문형 반도체) 자체 설계로 전환. 구글 TPU(2015), 아마존 트레이니엄+인퍼런시아 분리, MS 하드웨어·소프트웨어 동시 설계, 메타·OpenAI 는 파트너십.

    결과추론 전용 칩 시장 2026 년 500억 달러 전망. 단순 비용 절감을 넘어 자사 서비스 최적화 인프라로 엔비디아 의존도 분산.

    #gpu#asic#ai-chip+2
  2. 인프라 / DevOps·베스핀글로벌베스핀글로벌·

    AI Paradox (1) | LLM 인프라 비용, 1시간 만에 8,500만 원 날라간 이유

    문제AI PoC 월 300만 원이 본 운영 전환 시 3,800만 원까지 폭증. GPU 유휴율 68%, 토큰 폭주로 71분 만에 8,500만 원 손실 사례.

    접근FinOps 3단계: Inform(GPU 활성화율·토큰 소비 가시화) → Optimize(작업 난이도별 LLM 선택으로 최대 80% 절감) → Operate(자동화 스케줄링·토큰 거버넌스).

    결과LLM 인프라 비용 61% 절감, GPU 유휴율 68% → 12%. 콜드 스타트 우려에 갇혀 유휴 GPU 못 끄던 운영 책임 분담 문제를 자동화로 해결.

    #gpu#cost-optimization#finops+2
  3. 인프라 / DevOps·AWS KoreaAWS Korea·

    뉴빌리티의 Amazon Kinesis Video Streams 기반 원격 관제 확장 사례

    문제자율주행 로봇 300대를 RTSP + 포트포워딩으로 원격 관제하니 신규 사이트마다 20분~수시간 네트워크 설정이 필요. 운영 확장 불가.

    접근Amazon Kinesis Video Streams 의 WebRTC Signaling Channel 로 P2P 연결 구성. roundTripTime, fractionLost 메트릭 + TWCC 기반 비트레이트 조정으로 LTE 가변 환경 대응.

    결과포트포워딩 제거, 외부 이해관계자도 영상 접근 가능, 네트워크 변동에도 안정 품질 유지.

    #aws#iot#webrtc+2
  4. 인프라 / DevOps·AWS KoreaAWS Korea·

    성공적인 게임 출시를 위한 Amazon GameLift Servers 런칭 단계 가이드 – Part2

    문제Amazon GameLift Servers 로 글로벌 멀티플레이어 게임을 무중단 출시하려면 한도·플릿·부하·모니터링·롤백을 어떻게 준비하나.

    접근5단계: 서비스 한도 사전 확대(2~3개월 전 설문) → 프로덕션 플릿 자동 스케일링 30~50% 여유 + 다중 위치 → 실제 패턴 부하 테스트로 병목 발견 → CloudTrail/CloudWatch 로 스로틀링 모니터링 → Blue/Green 무중단 배포.

    결과베타·프리뷰 포함 모든 출시 시나리오를 안정적으로 대응 가능. ThrottlingException·RequestLimitExceeded 같은 운영 지표를 사전 통제.

    #autoscaling#aws#gamelift+2
  5. 인프라 / DevOps·AWS KoreaAWS Korea·

    성공적인 게임 출시를 위한 Amazon GameLift Servers 사전 제작 단계 가이드 – Part1

    문제멀티플레이어 게임 출시 사전 단계에서 인스턴스 선택, 라이프사이클, 세션 배치, 관찰 가능성을 어떻게 설계해야 하나.

    접근4가지 핵심: 리소스 소비량 측정으로 인스턴스 타입(C/M/R) 선정 + 컨테이너 플릿 — InitSDK/ProcessReady/OnStartGameSession/ActivateGameSession/ProcessEnding 순서 + OnHealthCheck — 큐로 다중 플릿 자동 장애 조치, Lambda 로 배치 상태 처리 — game session id 로깅 + PercentAvailableGameSessions 등 메트릭 알람.

    결과Amazon GameLift Servers 의 오케스트레이션·세션 배치·라이프사이클을 제대로 활용해 출시 후 안정 운영 기반 확보.

    #aws#gamelift#game-server+2
  6. 인프라 / DevOps·네이버 D2네이버 D2·

    네이버 검색의 대규모 메트릭 저장소, VictoriaMetrics 운영기

    문제네이버 검색 같은 대규모 시스템의 메트릭을 Prometheus로 다루다 보면 클러스터 확장성과 장기 보관 비용에서 한계가 온다.

    접근Prometheus 대체로 VictoriaMetrics 도입. 시계열 데이터 압축, 다운샘플링, 클러스터 토폴로지 운영을 통해 데이터 보관 비용 절감 + 쿼리 성능 유지.

    결과대규모 observability 시스템을 비용 효율적으로 운영. PromQL 호환성 덕분에 기존 대시보드/알람 마이그레이션 비용도 낮춤.

    #victoriametrics#prometheus#time-series+2
  7. 인프라 / DevOps·LINE EngineeringLINE Engineering·

    신뢰성 향상을 위한 SLO/SLI 도입 3편 - 서비스 적용 사례

    문제SLI/SLO 이론은 알지만 실제 서비스에 어떻게 적용하고 운영할지가 어려운 부분.

    접근LINE의 SLI/SLO 시리즈 3편. 실제 서비스에서 SLI(latency / availability) 정의, SLO 목표 설정, 에러 버짓 운영, alerting 룰 설계, on-call 변화까지 운영 변천사 정리.

    결과SLO 기반으로 인시던트 대응과 일상 운영 우선순위가 바뀜. 단순 "불이 났을 때만 보는" alert 가 아닌 "버짓 소진" 시그널로 운영 리듬을 만듦.

    #observability#sre#slo+2
  8. 인프라 / DevOps·당근당근·

    당근의 Job 워크로드를 위한 EKS 노드 그룹 오토스케일링 여정

    문제당근의 배치 Job 워크로드는 트래픽이 들쭉날쭉하다. 정적으로 노드를 크게 잡으면 유휴 비용이, 작게 잡으면 Job 시작 지연이 SLO 를 깬다.

    접근EKS 노드 그룹에 Karpenter 스타일 오토스케일링을 도입. 수요가 있으면 빠르게 프로비저닝하고 유휴일 때 즉시 회수한다.

    결과유휴 노드 비용을 약 40% 줄이면서 Job 시작 지연 SLO 를 유지. Job 중심 워크로드에 맞는 오토스케일링 패턴을 정리.

    #eks#kubernetes#autoscaling+2
  9. 인프라 / DevOps·당근당근·

    Job 워크로드를 위한 EKS Node Group 오토스케일링 도입기

    문제batch Job 워크로드는 짧고 변동성이 크다. EKS Node Group 을 정적으로 두면 유휴 노드 비용이 크고, 작게 두면 Job 시작 latency 가 SLO 를 벗어난다.

    접근당근이 cluster autoscaler / Karpenter 기반 오토스케일링을 적용. Job 패턴에 맞춰 빠르게 노드를 띄우고 idle 시 빠르게 회수한다.

    결과유휴 비용 줄이면서 Job 시작 latency 를 SLO 안으로 유지. AI 학습 같은 burst 워크로드에도 적용 가능.

    #eks#kubernetes#autoscaling+2
  10. 인프라 / DevOps·토스 SLASH토스 SLASH·

    Apache Flink + RocksDB 튜닝으로 광고 Frequency Capping 실시간 집계를 일주일까지 확장하기

    문제광고 Frequency Capping 을 7일 윈도우로 실시간 집계하려면 Apache Flink 의 RocksDB 상태 관리가 병목이 된다.

    접근RocksDB write buffer 크기와 SST level 구조를 워크로드 키 분포에 맞게 튜닝. 메모리 / 디스크 비율을 다시 잡아 throughput 을 살림.

    결과윈도우를 1일에서 7일까지 확장 + 메모리 사용 40% 감소, p99 latency 3배 개선.

    #stream-processing#apache-flink#rocksdb+2