[논문] AI 슈퍼컴퓨터 동향

2025년 04월 28일 4 분 소요

AI 개발은 점점 더 강력해지는 AI 슈퍼컴퓨터에 의존하고 있다. 2019년부터 2025년까지의 데이터를 분석한 결과, AI 슈퍼컴퓨터의 계산 성능은 9개월마다 두 배씩 증가했으며, 하드웨어 구매 비용과 전력 수요는 매년 두 배씩 증가했다. AI 슈퍼컴퓨터가 과학 도구에서 산업 기계로 진화함에 따라 기업은 전체 AI 슈퍼컴퓨터 성능에서 차지하는 비중을 급속히 확대했으며, 정부 및 학계의 비중은 감소했다.

전 세계적으로 미국이 전체 성능의 약 75%를 차지하며, 중국이 15%로 그 뒤를 이었다. 이러한 추세가 지속된다면 2030년에는 선도적인 AI 슈퍼컴퓨터가 현재보다 훨씬 큰 규모와 전력 요구 사항을 갖게 될 것이다. 따라서, 이 블로그는 Pilz et al. (2025)의 “Trends in AI Supercomputers” 보고서를 기반으로 하며, AI 슈퍼컴퓨터의 성능, 전력 수요, 하드웨어 비용, 소유권 및 글로벌 분포에 대한 주요 동향을 아래와 같이 정리했다.

0. 정책적 함의

AI 슈퍼컴퓨터 동향에 대한 분석은 “정책 입안자에게 리소스 요구 사항, 소유권 및 국가 경쟁력과 같은 주요 AI 동향에 대한 가시성”을 제공함.
전력 수요 증가를 해결하기 위한 에너지 인프라 계획이 중요함.
AI 개발 및 배포에 대한 가시성을 높이기 위해 기업에게 인프라 데이터 보고를 요구하는 것이 고려될 수 있음.
다른 국가의 AI 컴퓨팅 능력에 대한 정보 수집은 국가 경쟁력을 평가하고 잠재적인 미래 국제 협정을 검증하는 데 도움이 될 수 있음.
수출 통제는 중국의 AI 발전을 늦추는 데 사용될 수 있지만, 정보 공개 제한 및 밀수와 같은 회피 전략으로 인해 데이터 수집이 어려워짐.

1. AI 슈퍼컴퓨터 성능의 기하급수적 성장

AI 슈퍼컴퓨터의 계산 성능은 2019년부터 2025년까지 “9개월마다 두 배씩 증가했음(연간 2.5배 증가율)”. 이 성장은 주로 AI 칩 수량의 연간 1.6배 증가와 칩당 성능의 연간 1.6배 개선으로 이루어졌음.

그림 1 - AI 슈퍼컴퓨터의 계산 성능

[그림 1 - AI 슈퍼컴퓨터의 계산 성능]

2025년 3월 기준 선도 시스템인 xAI의 Colossus는 “200,000개의 AI 칩”을 사용하며, 2019년 선도 시스템인 오크릿지 내셔널 연구실(Oak Ridge National Laboratory)의 Summit보다 “50배 이상 높은 성능”을 달성했음.
이러한 성능 향상은 고급 챗봇, 이미지 생성 및 단백질 구조 예측과 같은 “주목할 만한 AI 모델을 훈련하는 데 사용되는 컴퓨팅”의 연간 4.1배 성장을 가능하게 했음.

2. 하드웨어 비용 및 전력 수요의 급증

선도 AI 슈퍼컴퓨터의 하드웨어 비용과 전력 수요는 “매년 두 배씩 증가했음”. 하드웨어 비용은 연간 1.9배, 전력 수요는 연간 2.0배 증가했음

그림 2 - AI 슈퍼컴퓨터의 비용

[그림 2 - AI 슈퍼컴퓨터의 비용]

xAI의 Colossus는 2025년 3월 기준으로 “70억 달러의 하드웨어 비용”과 “250,000가구와 맞먹는 300MW의 전력”을 필요
“관찰된 추세가 지속된다면, 2030년 6월 선도적인 AI 슈퍼컴퓨터는 2,000억 달러의 하드웨어 비용과 9GW의 전력을 필요로 할 것입니다.” 이는 현재의 산업 시설 규모를 훨씬 초과하는 수준임.
AI 슈퍼컴퓨터의 에너지 효율성(16비트 FLOP/s/watt)은 2019년부터 2025년까지 “매년 1.34배” 향상되었음. 이는 주로 “더 에너지 효율적인 칩의 채택” 덕분.
에너지 효율성 개선에도 불구하고 전력 수요 자체는 슈퍼컴퓨터의 성능 및 규모 증가 속도가 더 빠르기 때문에 계속 증가하고 있음.

3. 글로벌 분포 및 국가 경쟁력

전 세계 AI 슈퍼컴퓨터 성능의 “약 75%를 미국이 차지”하고 있으며, “중국이 15%로 두 번째”로 많습니다. 유럽 연합은 약 3%를 차지함.

그림 3 - AI 슈퍼컴퓨터의 글로벌 분포

[그림 3 - AI 슈퍼컴퓨터의 글로벌 분포]

2025년 3월 현재, 미국 기반 AI 슈퍼컴퓨터의 총 성능은 850,000 H100-equivalents로 중국(110,000 H100-equivalents)보다 거의 9배, 유럽 연합(50,000 H100-equivalents)보다 17배 높음.
중국은 Top500 목록에 공개적으로 참여하지 않는 등 AI 슈퍼컴퓨터에 대한 정보 공개가 제한적. 이는 부분적으로 미국 규제 기관의 감시를 피하고 AI 칩 밀수를 숨기려는 동기에서 비롯된 것일 수 있음.
프랑스, 영국, 사우디아라비아, UAE 등 일부 국가들은 자체적인 AI 인프라에 투자하고 있지만, 대부분의 프로젝트는 미국 선도 AI 슈퍼컴퓨터에 비해 규모가 작음.

4. 소유권의 변화: 민간 부문의 급부상

민간 부문의 AI 슈퍼컴퓨팅 성능 점유율은 2019년 “40% 미만에서 2025년 약 80%”로 급증했음.
반면, 공공 부문(정부 및 학계)의 점유율은 2019년 약 60%에서 2025년 약 15%로 급감했음.

그림 4 - AI 슈퍼컴퓨터의 소유권 변화

[그림 4 - AI 슈퍼컴퓨터의 소유권 변화]

“선도적인 공공 부문 시스템은 처음에는 더 컸지만, 연간 2.7배 성장한 산업 시스템을 따라가지 못했음”.
이러한 변화는 AI 개발 및 배포의 “경제적 중요성이 증대”하고 AI 칩에 대한 “기록적인 수요”를 창출한 “AI에 대한 상당한 투자 증가”에 기인함.

5. 데이터 수집의 한계

연구에 사용된 데이터 세트는 정의에 해당하는 모든 AI 슈퍼컴퓨터의 “약 10-20%만 포착”함.
정보 공개가 제한적인 기업 및 특정 칩 유형(예: Google의 TPU, 사용자 지정 실리콘)의 경우 데이터 범위가 훨씬 낮음.
“소유권의 변화(공공 부문에서 민간 부문으로의 이동)” 및 “국가별 분포”는 낮은 범위에도 불구하고 신뢰할 수 있는 통찰력을 제공함.

6. AI 슈퍼컴퓨터 정의의 어려움

“AI 슈퍼컴퓨터는 대규모 AI 모델 훈련을 지원할 수 있는 시스템”으로 정의되었지만, 공공 데이터의 한계로 인해 이러한 시스템만 정확하게 포착하는 데 어려움이 있음.
단일 연속 캠퍼스(시스템의 물리적 위치 및 구성 단위)에 배포된 시스템만 포함되지만, 일부 대규모 훈련은 여러 캠퍼스에 분산된 칩을 사용.
이론적인 성능 수치는 반드시 실제 대규모 훈련 유용성(예: 네트워킹 인프라 부족)을 반영하지 않을 수 있음.

7. AI 칩 분포

칩의 대다수는 “NVIDIA의 Hopper, Ampere 및 Volta 칩”이며, 제조사별로 분류할 때, “NVIDIA 칩은 데이터 세트에서 전체 성능의 약 75%를 차지”하며, 이는 NVIDIA의 시장 점유율과 일치함.
중국에서 설계된 칩은 데이터 세트에서 성능의 2% 미만을 차지하지만, 중국 시스템에 대한 데이터 부족으로 인해 실제 비율은 더 높을 수 있음.

8. 향후 전망 및 도전 과제

현재 추세가 지속된다면 2030년 선도 AI 슈퍼컴퓨터는 “200만 개의 AI 칩”을 사용할 수 있음. 이는 예측되는 AI 칩 생산량 증가를 고려할 때 “실현 가능”한 규모임.
그러나 2030년에 예측되는 “9GW의 전력 수요”는 “9개의 원자로가 생산하는 전력”과 맞먹는 규모로, “단일 위치에서 확보하는 데 어려움이 있을 것”이며 “심각한 허가 및 장비 공급망 문제”를 겪을 가능성이 높음.
이러한 전력 제약을 극복하기 위해 기업들은 “여러 위치의 AI 슈퍼컴퓨터에서 훈련을 분산”할 수 있는 분산 훈련 접근 방식을 채택할 수 있음.

9. 결론

AI 슈퍼컴퓨터는 전례 없는 속도로 성장하고 있으며, 이는 AI 기능의 빠른 발전을 주도하고 있음.
이러한 성장은 전력 요구 사항 및 하드웨어 비용과 관련하여 상당한 도전을 제기하며, 향후 몇 년 안에 확장이 제한될 수 있음.
AI 슈퍼컴퓨터의 소유권이 공공 부문에서 민간 부문으로 크게 이동했으며, 미국이 AI 컴퓨팅 능력에서 압도적인 선두를 달리고 있음.
AI 개발의 미래 방향과 지정학적 환경을 이해하고 형성하려면 이러한 추세를 지속적으로 모니터링하고 데이터 수집의 한계를 해결하는 것이 중요함.

참고 문헌

Trends in AI Supercomputers 논문: https://arxiv.org/abs/2504.16026
Epoch.ai 의 Trends in AI Supercomputers 블로그: https://epoch.ai/blog/trends-in-ai-supercomputers

Twitter Facebook LinkedIn