스파인-리프 네트워크
스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.
1. 스파인-리프 네트워크 아키텍처
[그림 - 스파인-리프 네트워크 아키텍처]
- 리프(Leaf)) 스위치: 서버나 GPU 노드가 직접 연결되는 하위 스위치
- 스파인(Spine)) 스위치: Leaf 스위치들을 상호 연결하는 백본 스위치
- 모든 리프는 모든 스파인에 연결되어 있어 네트워크 병목을 최소화
- 각 리프 스위치는 모든 스파인 스위치와 연결
- 서버는 리프 스위치에만 연결됨
- 스파인은 리프 간 east-west 트래픽을 처리
2. 스파인-리프 네트워크 특징
항목 | 설명 |
---|---|
고가용성 | Spine 스위치 중 하나가 실패해도 다른 경로로 트래픽 전달 가능 |
예측 가능한 대역폭 | Leaf당 Spine 연결이 대칭적이므로 트래픽 경로가 균일 |
수평 확장 용이 | Leaf와 Spine 스위치 수를 늘리는 방식으로 쉽게 확장 |
균일한 레이턴시 | 리프 간 통신은 항상 Spine 한 단계를 거치므로 지연 시간이 일정 |
3. 왜 HPC나 AI 클러스터에서 중요한가?
- NCCL, DDP, FSDP 등은 GPU 간 대용량 AllReduce 통신에 민감
- 스파인-리프 구조는 inter-node 통신 병목을 줄이고, 멀티 GPU 노드 간 성능 일관성 확보 가능
- 특히, InfiniBand 기반 스파인-리프 구조는 LLM 학습처럼 대역폭 집약적인 작업에 최적
4. 기존의 3-Tier (Core-Aggregation-Access) 구조와 비교
항목 | 3-Tier 구조 | Spine-Leaf 구조 |
---|---|---|
계층 수 | 3 (Core, Agg, Access) | 2 (Spine, Leaf) |
병목 가능성 | Aggregation에서 병목 발생 가능 | 모든 Leaf-Spine 경로가 평등 |
확장성 | 제한적 | 수평 확장 쉬움 |
지연 시간 | 가변 | 예측 가능하고 낮음 |
댓글남기기