메모리 패브릭 솔루션
메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!
1. 메모리 패브릭이란?
-
대규모 AI 및 고성능 컴퓨팅(HPC) 환경에서 데이터 이동 비용을 줄이고 연산 속도를 극대화
-
기존의 데이터센터에서는 각 서버 또는 노드가 개별적으로 메모리를 소유하고, 데이터 공유가 필요할 경우 네트워크를 통해 데이터를 복사해야 하나, 메모리 패브릭 기술을 활용하면 각 서버의 메모리를 하나의 거대한 풀(Pool)로 통합하여 공유함
-
CPU나 GPU가 원격에 있는 메모리에 직접 접근할 수 있는 구조를 제공하여 데이터 이동 비용을 줄이고, 지연(Latency)을 최소화
2. NVIDIA의 메모리 패브릭 솔루션
-
NVIDIA는 GPUDirect, NVLink, NVSwitch, Infiniband 기반 RDMA 등을 활용하여 AI 및 HPC 환경에서 초고속 데이터 공유
-
GPUDirect 기술
- GPUDirect RDMA: CPU를 거치지 않고 GPU가 직접 원격 GPU 또는 스토리지와 데이터를 주고받을 수 있도록 하는 기술
- GPUDirect Storage: GPU가 NVMe 스토리지와 직접 통신하여 스토리지 입출력 지연을 줄이고 대역폭을 극대화
- GPUDirect P2P(Peer-to-Peer): 하나의 서버 내에서 여러 GPU 간 직접 데이터 교환 가능
-
NVLink 및 NVSwitch
- NVLink: GPU 간 초고속 데이터 전송 인터커넥트 (PCIe보다 최대 10배 빠른 대역폭 제공)
- NVSwitch: 다수의 NVLink를 연결하여 GPU 간 전체 연결(All-to-All Connectivity)을 가능하게 하는 기술
- 예: NVIDIA DGX 시스템은 NVLink 및 NVSwitch를 통해 여러 개의 GPU가 하나의 거대한 메모리 풀처럼 동작함
-
Infiniband 및 RDMA 기반 네트워크 패브릭
-
Quantum Infiniband: HPC/AI 환경에서 GPU 간 초저지연, 고대역폭 연결을 제공하는 NVIDIA의 고성능 네트워크 기술
-
RDMA(Remote Direct Memory Access): CPU를 거치지 않고 서버 간 원격 메모리에 직접 접근하여 데이터 전송 속도를 대폭 개선
-
3. 메모리 패브릭이 필요한 이유
- 데이터 이동 비용 절감: 기존의 CPU 메모리 복사 방식보다 훨씬 적은 오버헤드로 대용량 데이터를 주고받을 수 있음
- HPC 및 AI 워크로드 가속화: 모델 훈련 및 대규모 데이터 분석 시 GPU 간 빠른 데이터 공유가 필수적
- 초대형 AI 모델 지원: ChatGPT, Stable Diffusion, BERT 등 거대한 파라미터를 가진 AI 모델을 학습할 때 필요
4. NVIDIA의 최신 메모리 패브릭 기술 적용 사례
- DGX GH200: 576개의 Grace Hopper 슈퍼칩을 NVLink로 연결하여 한 개의 거대한 GPU 메모리 풀처럼 동작
- Israel-1 AI 슈퍼컴퓨터: Infiniband 기반 네트워크 패브릭을 활용하여 2048개의 H100 GPU를 연결
댓글남기기