Lustre Changelog DR
Lustre 같은 대규모 분산 파일시스템에서 rsync 기반 DR은 매번 전체 스캔이 필요해 수십 시간이 걸렸고, RPO를 짧게 가져가기 어려웠다.
Lustre 같은 대규모 분산 파일시스템에서 rsync 기반 DR은 매번 전체 스캔이 필요해 수십 시간이 걸렸고, RPO를 짧게 가져가기 어려웠다.
Lustre 분산 파일시스템에서 클라이언트가 파일을 create·open할 때 MDS(메타데이터 서버)와 클라이언트 사이에서 어떤 절차로 메타데이터·OST 매핑이 만들어지는지 내부 흐름이 명확하지 않으면 운영 디버깅이 어렵다.
Lustre 파일시스템에서 새 파일을 만드는 단순한 동작 뒤에 LLITE·LMV·MDC·LOV·OSC를 가로지르는 복잡한 처리 흐름이 숨어 있어, 디버깅과 튜닝의 진입 장벽이 컸다.
팀에서 Figma 대체 디자인 도구가 필요했고, 셀프 호스팅으로 비용을 절감할 오픈소스를 탐색했다.
단일 NFS 서버는 메타데이터와 데이터 경로가 묶여 대규모 병렬 접근 시 병목이 발생한다.
AnyStor 제품에서 Thin/Thick 볼륨 스냅샷 구현 시 풀 공간 고갈, 메타데이터 부족, 장애 복구 등 4가지 이슈가 발생했다.
PCIe 기반 인터커넥트는 대규모 데이터 전송 시 프로토콜 오버헤드가 발생하고, 메모리 채널에 비해 느려 AI/ML 워크로드의 메모리 공유에 병목이 생긴다.
기존 파일 시스템은 볼륨 매니저를 별도 운용해야 하고, 데이터 무결성·스냅샷·RAID 기능이 분산되어 복잡도가 높다.
올플래시 스토리지 도입 시 워크로드 유형(IOPS·스루풋·지연시간)에 따른 선정 기준이 불명확하고, 벤더가 제시하는 수치와 실제 성능 차이가 크다.
NVMe 시대의 소프트웨어 RAID 솔루션 xiRAID의 실제 성능이 공식 발표 자료와 어느 정도 일치하는지, 그리고 하드웨어 RAID 방식 SupremeRAID와 어떻게 다른지 검증이 필요하다.