메모리 패브릭 솔루션

2023년 12월 01일 1 분 소요

메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!

1. 메모리 패브릭이란?

대규모 AI 및 고성능 컴퓨팅(HPC) 환경에서 데이터 이동 비용을 줄이고 연산 속도를 극대화
기존의 데이터센터에서는 각 서버 또는 노드가 개별적으로 메모리를 소유하고, 데이터 공유가 필요할 경우 네트워크를 통해 데이터를 복사해야 하나, 메모리 패브릭 기술을 활용하면 각 서버의 메모리를 하나의 거대한 풀(Pool)로 통합하여 공유함
CPU나 GPU가 원격에 있는 메모리에 직접 접근할 수 있는 구조를 제공하여 데이터 이동 비용을 줄이고, 지연(Latency)을 최소화

2. NVIDIA의 메모리 패브릭 솔루션

NVIDIA는 GPUDirect, NVLink, NVSwitch, Infiniband 기반 RDMA 등을 활용하여 AI 및 HPC 환경에서 초고속 데이터 공유
GPUDirect 기술
- GPUDirect RDMA: CPU를 거치지 않고 GPU가 직접 원격 GPU 또는 스토리지와 데이터를 주고받을 수 있도록 하는 기술
- GPUDirect Storage: GPU가 NVMe 스토리지와 직접 통신하여 스토리지 입출력 지연을 줄이고 대역폭을 극대화
- GPUDirect P2P(Peer-to-Peer): 하나의 서버 내에서 여러 GPU 간 직접 데이터 교환 가능
NVLink 및 NVSwitch
- NVLink: GPU 간 초고속 데이터 전송 인터커넥트 (PCIe보다 최대 10배 빠른 대역폭 제공)
- NVSwitch: 다수의 NVLink를 연결하여 GPU 간 전체 연결(All-to-All Connectivity)을 가능하게 하는 기술
  - 예: NVIDIA DGX 시스템은 NVLink 및 NVSwitch를 통해 여러 개의 GPU가 하나의 거대한 메모리 풀처럼 동작함
Infiniband 및 RDMA 기반 네트워크 패브릭
- Quantum Infiniband: HPC/AI 환경에서 GPU 간 초저지연, 고대역폭 연결을 제공하는 NVIDIA의 고성능 네트워크 기술
- RDMA(Remote Direct Memory Access): CPU를 거치지 않고 서버 간 원격 메모리에 직접 접근하여 데이터 전송 속도를 대폭 개선

3. 메모리 패브릭이 필요한 이유

데이터 이동 비용 절감: 기존의 CPU 메모리 복사 방식보다 훨씬 적은 오버헤드로 대용량 데이터를 주고받을 수 있음
HPC 및 AI 워크로드 가속화: 모델 훈련 및 대규모 데이터 분석 시 GPU 간 빠른 데이터 공유가 필수적
초대형 AI 모델 지원: ChatGPT, Stable Diffusion, BERT 등 거대한 파라미터를 가진 AI 모델을 학습할 때 필요

4. NVIDIA의 최신 메모리 패브릭 기술 적용 사례

DGX GH200: 576개의 Grace Hopper 슈퍼칩을 NVLink로 연결하여 한 개의 거대한 GPU 메모리 풀처럼 동작
Israel-1 AI 슈퍼컴퓨터: Infiniband 기반 네트워크 패브릭을 활용하여 2048개의 H100 GPU를 연결

Twitter Facebook LinkedIn

메모리 패브릭 솔루션

1. 메모리 패브릭이란?

2. NVIDIA의 메모리 패브릭 솔루션

3. 메모리 패브릭이 필요한 이유

4. NVIDIA의 최신 메모리 패브릭 기술 적용 사례

공유하기

댓글남기기