[논문] AI 슈퍼컴퓨터 동향
AI 개발은 점점 더 강력해지는 AI 슈퍼컴퓨터에 의존하고 있다. 2019년부터 2025년까지의 데이터를 분석한 결과, AI 슈퍼컴퓨터의 계산 성능은 9개월마다 두 배씩 증가했으며, 하드웨어 구매 비용과 전력 수요는 매년 두 배씩 증가했다. AI 슈퍼컴퓨터가 과학 도구에서 산업 기계로 진화함에 따라 기업은 전체 AI 슈퍼컴퓨터 성능에서 차지하는 비중을 급속히 확대했으며, 정부 및 학계의 비중은 감소했다.
전 세계적으로 미국이 전체 성능의 약 75%를 차지하며, 중국이 15%로 그 뒤를 이었다. 이러한 추세가 지속된다면 2030년에는 선도적인 AI 슈퍼컴퓨터가 현재보다 훨씬 큰 규모와 전력 요구 사항을 갖게 될 것이다. 따라서, 이 블로그는 Pilz et al. (2025)의 “Trends in AI Supercomputers” 보고서를 기반으로 하며, AI 슈퍼컴퓨터의 성능, 전력 수요, 하드웨어 비용, 소유권 및 글로벌 분포에 대한 주요 동향을 아래와 같이 정리했다.
0. 정책적 함의
- AI 슈퍼컴퓨터 동향에 대한 분석은 “정책 입안자에게 리소스 요구 사항, 소유권 및 국가 경쟁력과 같은 주요 AI 동향에 대한 가시성”을 제공함.
- 전력 수요 증가를 해결하기 위한 에너지 인프라 계획이 중요함.
- AI 개발 및 배포에 대한 가시성을 높이기 위해 기업에게 인프라 데이터 보고를 요구하는 것이 고려될 수 있음.
- 다른 국가의 AI 컴퓨팅 능력에 대한 정보 수집은 국가 경쟁력을 평가하고 잠재적인 미래 국제 협정을 검증하는 데 도움이 될 수 있음.
- 수출 통제는 중국의 AI 발전을 늦추는 데 사용될 수 있지만, 정보 공개 제한 및 밀수와 같은 회피 전략으로 인해 데이터 수집이 어려워짐.
1. AI 슈퍼컴퓨터 성능의 기하급수적 성장
- AI 슈퍼컴퓨터의 계산 성능은 2019년부터 2025년까지 “9개월마다 두 배씩 증가했음(연간 2.5배 증가율)”. 이 성장은 주로 AI 칩 수량의 연간 1.6배 증가와 칩당 성능의 연간 1.6배 개선으로 이루어졌음.
- 2025년 3월 기준 선도 시스템인 xAI의 Colossus는 “200,000개의 AI 칩”을 사용하며, 2019년 선도 시스템인 오크릿지 내셔널 연구실(Oak Ridge National Laboratory)의 Summit보다 “50배 이상 높은 성능”을 달성했음.
- 이러한 성능 향상은 고급 챗봇, 이미지 생성 및 단백질 구조 예측과 같은 “주목할 만한 AI 모델을 훈련하는 데 사용되는 컴퓨팅”의 연간 4.1배 성장을 가능하게 했음.
2. 하드웨어 비용 및 전력 수요의 급증
- 선도 AI 슈퍼컴퓨터의 하드웨어 비용과 전력 수요는 “매년 두 배씩 증가했음”. 하드웨어 비용은 연간 1.9배, 전력 수요는 연간 2.0배 증가했음
- xAI의 Colossus는 2025년 3월 기준으로 “70억 달러의 하드웨어 비용”과 “250,000가구와 맞먹는 300MW의 전력”을 필요
- “관찰된 추세가 지속된다면, 2030년 6월 선도적인 AI 슈퍼컴퓨터는 2,000억 달러의 하드웨어 비용과 9GW의 전력을 필요로 할 것입니다.” 이는 현재의 산업 시설 규모를 훨씬 초과하는 수준임.
- AI 슈퍼컴퓨터의 에너지 효율성(16비트 FLOP/s/watt)은 2019년부터 2025년까지 “매년 1.34배” 향상되었음. 이는 주로 “더 에너지 효율적인 칩의 채택” 덕분.
- 에너지 효율성 개선에도 불구하고 전력 수요 자체는 슈퍼컴퓨터의 성능 및 규모 증가 속도가 더 빠르기 때문에 계속 증가하고 있음.
3. 글로벌 분포 및 국가 경쟁력
- 전 세계 AI 슈퍼컴퓨터 성능의 “약 75%를 미국이 차지”하고 있으며, “중국이 15%로 두 번째”로 많습니다. 유럽 연합은 약 3%를 차지함.
-
2025년 3월 현재, 미국 기반 AI 슈퍼컴퓨터의 총 성능은 850,000 H100-equivalents로 중국(110,000 H100-equivalents)보다 거의 9배, 유럽 연합(50,000 H100-equivalents)보다 17배 높음.
-
중국은 Top500 목록에 공개적으로 참여하지 않는 등 AI 슈퍼컴퓨터에 대한 정보 공개가 제한적. 이는 부분적으로 미국 규제 기관의 감시를 피하고 AI 칩 밀수를 숨기려는 동기에서 비롯된 것일 수 있음.
-
프랑스, 영국, 사우디아라비아, UAE 등 일부 국가들은 자체적인 AI 인프라에 투자하고 있지만, 대부분의 프로젝트는 미국 선도 AI 슈퍼컴퓨터에 비해 규모가 작음.
4. 소유권의 변화: 민간 부문의 급부상
- 민간 부문의 AI 슈퍼컴퓨팅 성능 점유율은 2019년 “40% 미만에서 2025년 약 80%”로 급증했음.
- 반면, 공공 부문(정부 및 학계)의 점유율은 2019년 약 60%에서 2025년 약 15%로 급감했음.
- “선도적인 공공 부문 시스템은 처음에는 더 컸지만, 연간 2.7배 성장한 산업 시스템을 따라가지 못했음”.
- 이러한 변화는 AI 개발 및 배포의 “경제적 중요성이 증대”하고 AI 칩에 대한 “기록적인 수요”를 창출한 “AI에 대한 상당한 투자 증가”에 기인함.
5. 데이터 수집의 한계
- 연구에 사용된 데이터 세트는 정의에 해당하는 모든 AI 슈퍼컴퓨터의 “약 10-20%만 포착”함.
- 정보 공개가 제한적인 기업 및 특정 칩 유형(예: Google의 TPU, 사용자 지정 실리콘)의 경우 데이터 범위가 훨씬 낮음.
- “소유권의 변화(공공 부문에서 민간 부문으로의 이동)” 및 “국가별 분포”는 낮은 범위에도 불구하고 신뢰할 수 있는 통찰력을 제공함.
6. AI 슈퍼컴퓨터 정의의 어려움
- “AI 슈퍼컴퓨터는 대규모 AI 모델 훈련을 지원할 수 있는 시스템”으로 정의되었지만, 공공 데이터의 한계로 인해 이러한 시스템만 정확하게 포착하는 데 어려움이 있음.
- 단일 연속 캠퍼스(시스템의 물리적 위치 및 구성 단위)에 배포된 시스템만 포함되지만, 일부 대규모 훈련은 여러 캠퍼스에 분산된 칩을 사용.
- 이론적인 성능 수치는 반드시 실제 대규모 훈련 유용성(예: 네트워킹 인프라 부족)을 반영하지 않을 수 있음.
7. AI 칩 분포
-
칩의 대다수는 “NVIDIA의 Hopper, Ampere 및 Volta 칩”이며, 제조사별로 분류할 때, “NVIDIA 칩은 데이터 세트에서 전체 성능의 약 75%를 차지”하며, 이는 NVIDIA의 시장 점유율과 일치함.
-
중국에서 설계된 칩은 데이터 세트에서 성능의 2% 미만을 차지하지만, 중국 시스템에 대한 데이터 부족으로 인해 실제 비율은 더 높을 수 있음.
8. 향후 전망 및 도전 과제
- 현재 추세가 지속된다면 2030년 선도 AI 슈퍼컴퓨터는 “200만 개의 AI 칩”을 사용할 수 있음. 이는 예측되는 AI 칩 생산량 증가를 고려할 때 “실현 가능”한 규모임.
- 그러나 2030년에 예측되는 “9GW의 전력 수요”는 “9개의 원자로가 생산하는 전력”과 맞먹는 규모로, “단일 위치에서 확보하는 데 어려움이 있을 것”이며 “심각한 허가 및 장비 공급망 문제”를 겪을 가능성이 높음.
- 이러한 전력 제약을 극복하기 위해 기업들은 “여러 위치의 AI 슈퍼컴퓨터에서 훈련을 분산”할 수 있는 분산 훈련 접근 방식을 채택할 수 있음.
9. 결론
- AI 슈퍼컴퓨터는 전례 없는 속도로 성장하고 있으며, 이는 AI 기능의 빠른 발전을 주도하고 있음.
- 이러한 성장은 전력 요구 사항 및 하드웨어 비용과 관련하여 상당한 도전을 제기하며, 향후 몇 년 안에 확장이 제한될 수 있음.
- AI 슈퍼컴퓨터의 소유권이 공공 부문에서 민간 부문으로 크게 이동했으며, 미국이 AI 컴퓨팅 능력에서 압도적인 선두를 달리고 있음.
- AI 개발의 미래 방향과 지정학적 환경을 이해하고 형성하려면 이러한 추세를 지속적으로 모니터링하고 데이터 수집의 한계를 해결하는 것이 중요함.
참고 문헌
- Trends in AI Supercomputers 논문: https://arxiv.org/abs/2504.16026
- Epoch.ai 의 Trends in AI Supercomputers 블로그: https://epoch.ai/blog/trends-in-ai-supercomputers
댓글남기기