서진호

NVIDIA DGX POD

2023년 12월 20일 1 분 소요

NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트워크인 Fabric Layer, 고속 스토리지인 Storage Layer, 소프트웨어 스택 등으로 나뉜다.

1. DGX 서버 (Compute Layer)

예: DGX A100 또는 DGX H100 서버 4~32대
- 각 서버당:
  - 8× NVIDIA A100/H100 GPU (NVLink로 연결됨)
  - 2× AMD EPYC CPU
  - 1TB RAM 이상
  - 2× 100GbE 또는 2× HDR/200Gbps InfiniBand
같은 노드 내 GPU들은 NVLink로 직접 연결
노드 간은 NCCL + InfiniBand 기반 inter-node 통신

2. 고속 네트워크 (Fabric Layer)

스위치 토폴로지: Spine-Leaf 구조
네트워크 유형:
- InfiniBand HDR(200Gbps) 또는 NDR(400Gbps) 스위치
  - 예: NVIDIA Quantum InfiniBand Switch
노드 당 최소 2× NIC → Spine 스위치로 연결
Leaf 스위치 수 = DGX 수만큼 (보통 Leaf 1대당 DGX 1~2대)
모든 Leaf는 모든 Spine에 연결 (non-blocking CLOS fabric 구성)
NCCL은 IB RDMA를 자동 활용 (NCCL_IB_HCA 환경변수 등)

3. 고속 스토리지 (Storage Layer)

예) DDN A³I, NetApp ONTAP AI, VAST, WekaIO
프로토콜: NVMe over Fabric, RDMA, NFS over InfiniBand
기능:
- AI 훈련 중 checkpoints, dataset shard 빠르게 읽기/쓰기
- GPU Direct Storage (GDS)로 GPU ↔ 스토리지 직접 접근

4. 소프트웨어 스택

운영체제: Ubuntu 또는 RHEL
AI/DL 프레임워크: PyTorch, TensorFlow, JAX 등 최적화된 NVIDIA 컨테이너
도구: NVIDIA NGC, NCCL, cuDNN, CUDA Toolkit
멀티 노드 훈련용: Slurm, Kubernetes + KubeFlow, MLFlow, NVIDIA Base Command

5. 실제 아키텍처 예시: DGX POD 8노드 구성

구성 요소	세부 스펙
DGX 시스템 수	8대 (DGX A100 기준)
GPU 수	8 GPU × 8 노드 = 64 A100
네트워크	HDR 200Gbps InfiniBand / Leaf-Spine
스토리지	DDN AI400X (NVMe 기반 GDS 지원)
소프트웨어	PyTorch DDP + NCCL + Slurm
네트워크 레이아웃	8 Leaf ↔ 2 Spine, full mesh CLOS

6. 왜 DGX POD인가?

장점	설명
확장성	노드를 8 → 32 → 128까지 쉽게 확장
높은 GPU 활용률	NVLink, NCCL, IB 최적화로 멀티노드/멀티GPU 효율 증대
최적화된 스택	NVIDIA NGC 컨테이너 + GDS + NCCL 통합
효율적인 학습	LLM, Vision, GenAI 학습 시간 단축 (ex: GPT, BERT)

공유하기

Twitter Facebook LinkedIn

댓글남기기