NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트워크인 Fabric Layer, 고속 스토리지인 Storage Layer, 소프트웨어 스택 등으로 나뉜다.
1. DGX 서버 (Compute Layer)
예: DGX A100 또는 DGX H100 서버 4~32대
각 서버당:
8× NVIDIA A100/H100 GPU (NVLink로 연결됨)
2× AMD EPYC CPU
1TB RAM 이상
2× 100GbE 또는 2× HDR/200Gbps InfiniBand
같은 노드 내 GPU들은 NVLink로 직접 연결
노드 간은 NCCL + InfiniBand 기반 inter-node 통신
2. 고속 네트워크 (Fabric Layer)
스위치 토폴로지: Spine-Leaf 구조
네트워크 유형:
InfiniBand HDR(200Gbps) 또는 NDR(400Gbps) 스위치
예: NVIDIA Quantum InfiniBand Switch
노드 당 최소 2× NIC → Spine 스위치로 연결
Leaf 스위치 수 = DGX 수만큼 (보통 Leaf 1대당 DGX 1~2대)
모든 Leaf는 모든 Spine에 연결 (non-blocking CLOS fabric 구성)
NCCL은 IB RDMA를 자동 활용 (NCCL_IB_HCA 환경변수 등)
3. 고속 스토리지 (Storage Layer)
예) DDN A³I, NetApp ONTAP AI, VAST, WekaIO
프로토콜: NVMe over Fabric, RDMA, NFS over InfiniBand
기능:
AI 훈련 중 checkpoints, dataset shard 빠르게 읽기/쓰기
GPU Direct Storage (GDS)로 GPU ↔ 스토리지 직접 접근
4. 소프트웨어 스택
운영체제: Ubuntu 또는 RHEL
AI/DL 프레임워크: PyTorch, TensorFlow, JAX 등 최적화된 NVIDIA 컨테이너
도구: NVIDIA NGC, NCCL, cuDNN, CUDA Toolkit
멀티 노드 훈련용: Slurm, Kubernetes + KubeFlow, MLFlow, NVIDIA Base Command
댓글남기기