NVIDIA DGX SuperPOD는 DGX POD의 확장형 버전으로, 대규모 LLM 훈련, 시뮬레이션, HPC, GenAI 등에 사용되는 엔터프라이즈급 AI 슈퍼컴퓨터 아키텍처이다. 따라서, 수십~수백 대의 DGX 시스템을 초고속 스토리지, InfiniBand 기반 스파인-리프 네트워크, NVIDIA AI 소프트웨어 스택과 함께 구성한 대규모 AI 슈퍼컴퓨팅 플랫폼으로 구성한다.
단순히 서버 수를 늘린 것이 아니라, 서버 + 네트워크 + 스토리지 + 운영 소프트웨어가 하나의 통합 플랫폼으로 설계되어 있고, 세계 최고 수준의 AI 훈련 속도, 확장성, 신뢰성 확보한다.
1. 실제 구성 예시
H100 GPU와 함께 DGX SuperPOD 구성
구성 항목
세부 내용
DGX 시스템 수
256대 (DGX H100)
GPU 수
256 × 8 = 2048개의 H100 GPU
네트워크
InfiniBand NDR 400Gbps, Spine-Leaf full CLOS
스토리지
DDN A³I, WekaIO, NetApp AI 스토리지 (GDS 지원)
성능
1엑사플롭스 AI 성능 이상 (FP8/FP16 기준)
운영 소프트웨어
NVIDIA Base Command, Slurm, Kubernetes, NGC 컨테이너
AI 사용 사례
GPT-4급 LLM, GenAI 파이프라인, 재무/의료 모델 학습
2. 네트워크 구성 (Spine-Leaf)
수십~수백 개의 Leaf 스위치 (DGX와 연결)
10~40개의 Spine 스위치 (Leaf 스위치를 cross 연결)
전체는 non-blocking, CLOS 토폴로지 기반
InfiniBand NDR 또는 HDR 사용 (400~200Gbps)
모든 DGX는 최소 2~4개의 NIC (ConnectX-7, BlueField)로 고속 연결
댓글남기기