pile·
인프라 / DevOps·인프랩 (인프런)인프런 (인프랩)·

EKS Bottlerocket AMI에서 DCGM 오류로 GPU 노드 반복 교체 문제 해결기

문제EKS 1.32 Bottlerocket AMI 의 GPU 노드(g5g.xlarge)가 생성 10~11분 후 반복 교체된다. 원인은 AMI 에 libdcgm.so 가 없어 NVIDIA DCGM 초기화가 실패, AcceleratedHardwareReady 컨디션이 False 가 돼 Karpenter Node Auto-Repair 가 노드를 unhealthy 로 처리한 것.
접근DCGM 라이브러리 수동 설치(Bottlerocket immutability 와 충돌), AMI 교체(인프라 변경 비용 큼), Node Auto-Repair 비활성화 세 가지를 비교한다. Karpenter featureGates.nodeRepair=false 로 임시 우회 채택.
결과노드 교체 루프 해소, 클러스터 안정화. Bottlerocket 의 DCGM 미포함 이슈는 업스트림 수정 대기 중인 잠정 해결.
인프랩 (인프런)
인프런 (인프랩) 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. 인프라 / DevOps·vercel-blogVercel Blog·

    Vercel CLI 드라이런 배포로 실제 배포 전 구성 미리 확인하기

    Vercel CLI v54.17.2부터 vercel deploy --dry 명령으로 실제 파일 업로드 없이 배포 구성을 미리 검사할 수 있다. 프레임워크 감지 결과, 포함/제외 파일 목록, 디렉터리 크기 분포, 콘텐츠 해시까지 사전에 확인하고 나서 배포를 결정할 수 있어 의도치 않은 배포 실패를 예방한다.

    #deployment#ci-cd#vercel-cli+1