메모리 패브릭 솔루션
메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!
메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!
InfiniBand 또는 고속 네트워크에서의 혼잡 제어(Congestion Control)는 네트워크 상의 혼잡 상황(과도한 트래픽으로 인한 지연, 손실, 성능 저하 등)을 감지하고 이를 완화하기 위해 송신 측과 수신 측이 협력하여 트래픽을 조절하는 메커니즘이다. 따라서, Infi...
퀀텀 인피니티밴드(Quantum InfiniBand) 혹은 일반적인 InfiniBand 구조에서의 적응형 라우팅(Adaptive Routing)은 고성능 컴퓨팅(HPC)이나 AI 클러스터와 같은 환경에서 데이터 패킷이 네트워크를 통해 이동할 때, 가장 적절한 경로를 동적으로 선택하...
NVIDIA는 Quantum Infiniband 및 Spectrum-X Ethernet을 통해 세계에서 가장 높은 성능의 AI 네트워크 솔루션을 제공하고, 메모리 패브릭 네트워크 인프라 구축 시 적극 고려해야 하는 데, AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션에 대해...
CUDA(Compute Unified Device Architecture)는 여러분들도 잘 아시다시피, NVIDIA의 GPU를 활용해 병렬 계산을 수행할 수 있도록 해주는 프로그래밍 플랫폼을 말한다. 이에 우리는 최신 NVIDIA CUDA Toolkit 12.8에 대해 좀 더 알아...
PCIe(Peripheral Component Interconnect Express)는 고속 데이터 전송을 위한 컴퓨터 확장 슬롯(인터페이스) 표준을 뜻하며, 그래픽 카드(GPU), NVMe SSD, 네트워크 카드(NIC), 사운드 카드 등의 고성능 하드웨어를 연결하는 데, 주요 ...
NVMe(Non-Volatile Memory Express) 스토리지는 고속 SSD(Solid State Drive) 인터페이스 및 프로토콜로, 기존 SATA(SATA SSD) 및 SAS(SAS SSD) 대비 훨씬 빠른 데이터 전송 속도와 낮은 지연시간(Latency)을 제공한다.
HPC&AI 고성능 네트워킹에서 NVIDIA의 인피니티밴드(Infiniband)과 RoCE(RDMA over Converged Ethernet) 기술은 양대 산맥으로 흔히 사용한다.
스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.
NCCL(NVIDIA Collective Communications Library)에서 intra-node와 inter-node는 비슷한 발음으로 헤깔리기 쉬운 데, 다음과 같이 정리해본다.