1 분 소요

HPC&AI 고성능 네트워킹에서 NVIDIA의 인피니티밴드(Infiniband)과 RoCE(RDMA over Converged Ethernet) 기술은 양대 산맥으로 흔히 사용한다.

두 기술 모두 고속 네트워크 인터커넥트 기술로, 특히 HPC, AI, 머신러닝, 데이터센터에서 사용되는 기술인데, 이에 대해 좀 더 알아보자!

1. InfiniBand vs. RoCE 개요

항목 InfiniBand (IB) RoCE (RDMA over Converged Ethernet)
기반 네트워크 InfiniBand 전용 네트워크 기존 이더넷 (Converged Ethernet)
RDMA 지원 네이티브 RDMA 지원 이더넷 상의 RDMA (RDMA over Ethernet)
네트워크 속도 최대 1,200Gbps (HDR, NDR, XDR) 최대 800Gbps (Ethernet 800G)
지연 시간 1µs 미만 (0.6~1.0µs) 약 1~2µs
품질 보장 (QoS) 크레딧 기반 흐름 제어 (Lossless 전송) PFC (Priority-based Flow Control) 필요
확장성 대규모 HPC 클러스터에 적합 일반 데이터센터 환경에서 우수한 확장성
주요 사용처 HPC, AI, 슈퍼컴퓨터, 클라우드 데이터센터, AI 학습/추론, 금융, 스토리지

2. 주요 비교 분석

  • 네트워크 기반
    • InfiniBand: Mellanox(NVIDIA)에서 주도하는 전용 네트워크 프로토콜로, 고성능과 낮은 지연 시간을 보장.
    • RoCE: 기존 이더넷 위에서 RDMA 기능을 구현하며, 스위치 및 기존 인프라 활용 가능.
  • 성능 (Throughput & Latency)
    • InfiniBand: 일반적으로 RoCE보다 더 낮은 지연 시간과 높은 성능을 제공.
    • 최신 NVIDIA Quantum-2 IB 스위치는 최대 400Gbps 속도를 지원하며, 지연 시간은 1μs 미만으로 낮음.
    • RoCE v2는 1~2μs 지연 시간이지만, 고속 이더넷(400GbE, 800GbE)이 등장하면서 성능 격차가 줄어듦.
  • QoS 및 신뢰성
  • InfiniBand: 크레딧 기반 흐름 제어(Flow Control)를 사용해 Lossless 전송을 보장.
  • RoCE: 이더넷 기반이므로 PFC(Priority Flow Control)과 ECN(Explicit Congestion Notification)을 활용하여 Lossless 환경을 구현해야 함.
    • 네트워크 설정이 제대로 안 되면 패킷 손실이 발생할 수 있음.
  • 확장성 및 비용
    • InfiniBand: 별도의 네트워크 장비(스위치, NIC 등)가 필요하며, 구축 비용이 높음.
    • RoCE: 기존 이더넷 인프라에서 활용 가능하므로 비용이 낮고, 클라우드 및 데이터센터에 최적화됨.
  • 소프트웨어 및 호환성
    • InfiniBand: NVIDIA HPC-X, OpenMPI, Slurm, MLNX_OFED 등을 통해 HPC 환경에 최적화.
    • RoCE: NVMe-oF(Storage), AI 클러스터, 클라우드(NIC 직접 연결) 등에서 더 많이 사용됨.

3. 환경 분석

사용 사례 추천 솔루션
HPC, 슈퍼컴퓨터, AI 훈련 (LLM, GPT-4 등) InfiniBand
데이터센터, 클라우드, 일반적인 AI/ML RoCE
스토리지 (NVMe-oF, GPUDirect Storage) RoCE v2
고성능 금융 애플리케이션 (Algorithm Trading, HFT 등) InfiniBand (초저지연 필수)
기존 이더넷 인프라 활용 RoCE
데이터센터 내 멀티 테넌시 및 확장성 고려 RoCE

4. 결론

  • InfiniBand: 최고의 성능과 최소 지연 시간을 요구하는 AI, HPC, 금융, 슈퍼컴퓨터 등에 적합.
  • RoCE: 기존 이더넷 기반 데이터센터, 클라우드, AI/ML, 스토리지 환경에서 비용 효율적이고 확장성이 뛰어남.

결론적으로 말해서, HPC 및 초저지연이 중요한 환경이라면 InfiniBand, 기존 이더넷 인프라와의 통합을 원한다면 RoCE가 적합함.

댓글남기기