엔터프라이즈 기업들이 GPU가 활용률이 5% 밖에 안되는 이유
지난 2년 동안 엔터프라이즈 기업들은 “GPU 확보 경쟁”이라는 명분 아래 과도한 데이터센터 투자와 비대한 IT 예산을 정당화해 왔습니다. (미국 기업 기준). H100 같은 GPU는 사실상 새로운 석유처럼 취급됐고, 지금 용량을 확보하지 않으면 AI 경쟁에서 뒤처질 것이라는 분위기가 강했습니다. 그런데 왜 엔터프라이즈 기업들이 GPU가 활용률이 5% 밖에 안되는 이유는 무엇일까요? 벤처비트 기사를 읽고, 내용을 정리하면서 국내 기업 현장의 목소리와 더불어 저의 생각을 곁들여 보았습니다.
1. 배경
가트너는 올해 AI 인프라 지출이 4,010억 달러 증가할 것으로 추정했습니다. 실제 기업 현장 감사에서는 평균 GPU 활용률이 5% 수준에 머물러 있다는 어두운 현실이 드러났습니다. 즉, 기업들은 비싼 GPU를 사거나 예약해 놓았지만, 실제로는 대부분 사용하지 않고 놀리고 있다는 뜻입니다.
이제 문제는 “GPU를 확보했는가?”가 아니라 “이미 확보한 GPU를 얼마나 생산적으로 쓰고 있는가?”로 바뀌고 있습니다. 많은 기업들이 3~5년 감가상각 주기로 GPU 용량을 확보했기 때문에, 실제 사용량과 상관없이 비용은 이미 고정비가 되어 버렸습니다. 놀고 있는 GPU는 단순한 유휴 자원이 아니라 시간이 지날수록 가치가 떨어지는 감가상각 자산임울 잊지 마시기 바랍니다.
2. “GPU 부족”보다 더 큰 문제는 생산성 부족
벤처비트 기사에 따르면, 인튜이트(Intuit), 마스터카드(Mastercard), 화이자제약(Pfizer) 같은 티어1와 같은 대기업들은 사실 GPU 접근성 자체가 가장 큰 병목은 아니었습니다. 이들은 AWS, Azure, GCP와의 관계를 통해 GPU 용량을 확보할 수 있었습니다. 그러나 진짜 문제는 데이터 거버넌스, 데이터 위치, 아키텍처 미성숙 때문에 확보한 용량을 제대로 쓰지 못했다는 점입니다.
각 회사의 AI 데이터센터의 GPU 5% 활용률이라면 수지가 맞지 않습니다. GPU에 1달러를 쓰면 95센트는 사실상 클라우드 사업자에게 기부하는 것과 같다는 표현까지 나오는 이유가 여기에 있습니다. 다른 부서에서 95% 낭비가 발생했다면 큰 문제가 됐겠지만, AI 인프라에서는 그동안 이를 “준비성”이라고 불렀다는 비판입니다.
3. 시장의 관심은 GPU 확보에서 TCO로 이동
벤처비트의 Q1 2026 AI Infrastructure & Compute Market Tracker에 따르면, IT 의사결정자들의 우선순위가 빠르게 바뀌고 있습니다. “GPU 접근성 및 가용성”의 중요도는 한 분기 만에 20.8%에서 15.4%로 떨어졌고, 반대로 기존 클라우드·데이터 스택과의 통합, 보안·컴플라이언스, 추론당 비용 등 TCO가 더 중요한 기준으로 떠올랐습니다. 특히 추론당 비용과 TCO는 34%에서 41%로 상승해, 성능보다 더 중요한 구매 기준이 되고 있습니다.
[표1] - 서비스 프로바이더 선택 기준 변화 그래픽
| 항목 | 2026년 1월 | 2026년 2월 | 변화 |
|---|---|---|---|
| GPU 접근성 / 가용성 | 20.8% | 15.4% | -5.4%p |
| 기존 클라우드 / 데이터 스택과의 통합 | 43.4% | 43.6% | 거의 유지 |
| 보안 / 컴플라이언스 요구사항 | 41.5% | 48.7% | +7.2%p |
| 추론당 비용 / 총소유비용, TCO | 34.0% | 41.0% | +7.0%p |
다시 말해, 이제 AI 예산은 백지수표가 아닙니다. 학습과 미세조정(fine-tuning)은 프로젝트성 비용에 가까웠지만, 추론은 지속적으로 비용이 발생하는 비즈니스 모델입니다. 사용량 기반 과금이 확대되면, GPU가 95% 놀고 있는 인프라 위에서 돌아가는 AI 서비스는 곧바로 비용 폭탄이 되어버립니다.
[표2] - AI 워크로드 이동 방향
| 전략 방향 | 2026년 1월 | 2026년 2월 | 변화 |
|---|---|---|---|
| 특화 AI 클라우드로 워크로드 이전 | 30.2% | 35.9% | +5.7%p |
| 추론 아웃소싱 / 관리형 LLM 제공업체 평가 | 13.2% | 23.1% | +9.9%p |
4. 토큰 소비자가 될 것인가, 아니면 토큰 생산자가 될 것인가?
모델 제공업체에 계속 비용을 내는 토큰 소비자로 남을 것인가, 아니면 자체 인프라와 단위 경제성을 통제하는 토큰 생산자가 될 것인가에 대해 대기업들은 이제 선택해야 합니다. 하지만 자체 추론 인프라를 운영하는 것은 단순히 GPU를 사는 문제가 안됩니다.
KV 캐시 지속성, 스토리지 구조, 지연시간 보장, 전력 제약, 데이터센터 공간, 운영 복잡성까지 모두 해결해야 합니다. 특히 추론 시 롱컨텍스트와 대규모 동시 사용자가 늘어나면서 KV 캐시 경제성이 핵심 문제로 대두됩니다. GPU 메모리에 KV 캐시를 저장하면, 속도는 빨라지지만 가격이 비싸고 용량이 제한됩니다. 반대로 NVMe 기반 공유 스토리지로 오프로딩하면 재사용성과 비용 효율은 좋아질 수 있지만, 지연시간과 시스템 설계의 복잡성이 생기는 문제가 발생합니다.
5. 전문 AI 클라우드와 관리형 추론의 부상
그래서 CoreWeave, Lambda, Crusoe 같은 전문 AI 클라우드 사업자가 주목받고 있다고 설명합니다. 이들은 단순히 GPU 접근권을 파는 것이 아니라, 스토리지, 네트워킹, 스케줄링까지 포함한 전체 스택을 추론 경제성에 맞게 최적화합니다. 그래서 전통적인 범용 클라우드보다 “AI Factory”에 가까운 환경을 제공합니다.
또 다른 흐름은 관리형 추론 서비스 회사를 이용하는 것 입니다. Baseten, Anyscale, Fireworks AI, Together AI 같은 업체들은 기업이 직접 vLLM 튜닝이나 분산 GPU 스케줄링 전문가가 되지 않아도, 예측 가능한 가격과 소프트웨어 라이선스 계약(SLA)로 LLM 추론을 사용할 수 있게 해줍니다. 내부에서 직접 추론 인프라를 운영할 만큼 충분한 규모가 없다면, 이런 방식이 더 현실적일 수 있다는 분석입니다.
6. 효율성의 기술적 핵심: 네트워크, 메모리, 스토리지
기사에서 말하는 GPU 활용률 5% 문제를 해결하려면, 단순히 소프트웨어를 조금 개선하는 수준으로는 부족합니다. 네트워크, 메모리, 스토리지 구조를 모두 다시 봐야 합니다.
첫째, 네트워크가 중요합니다. 분산 추론 환경에서는 데이터가 컴퓨트 노드와 스토리지 사이를 얼마나 빠르게 이동하느냐가 GPU 생산성을 좌우합니다. RDMA는 CPU를 우회해 메모리와 GPU 사이의 데이터 이동을 빠르게 하므로, 동시 워크로드에서 GPU당 출력량을 크게 높일 수 있다고 설명합니다.
둘째, 공유 KV캐시가 중요합니다. 모델이 커지고 컨텍스트 길이가 수백만 토큰으로 늘어나면, 매번 프롬프트 상태를 다시 만드는 비용이 너무 커집니다. 이를 해결하기 위해 업계는 KV캐시를 각 GPU 노드에 중복 저장하는 대신, 고성능 공유 스토리지에 중앙화해 재사용하는 구조로 바뀌고 있습니다.
셋째, 스토리지는 이제 단순한 백엔드가 아니라 재무적 의사결정입니다. 스토리지 계층이 GPU에 데이터를 계속 공급하지 못하면, 비싼 GPU는 기다리는 데 시간을 쓰게 됩니다. 따라서 효율성 시대의 목표는 GPU가 데이터 이동이 아니라 토큰 생성에 최대한 많은 사이클을 쓰도록 만드는 것 입니다.
7.결론: 저의 생각
벤처비트 기사를 읽고 드는 저의 생각은, 앞으로 AI 경쟁은 누가 가장 큰 GPU 클러스터를 보유했느냐로 결정되지 않는다고 생각합니다. 승자는 가장 낮은 유용 토큰당 비용, 가장 빠른 프로덕션 전환, 가장 신뢰할 수 있는 데이터 기반을 가진 기업이 될 것이라고 예상합니다. 다시 말해, 기업 AI의 다음 단계는 GPU를 더 많이 구입하는 것이 아니라, 이미 가진 GPU를 더 잘 쓰는 것입니다.
제가 국내 현장에 나가도 현재 기존의 GPU 서버를 어떻게 활용할 것인가에 대해 간혹 묻는 임원진이 꽤나 있습니다. “스택을 확보하는 시대”에서 “스택을 쥐어짜는 시대”로 넘어가고 있습니다. 국내에도 자금의 여유가 되는 일부 대기업은 신규 데이터센터 구성에 더 관심이 많지만, 그렇지 않는 곳에서는 기존의 데이터센터로 에이전트 개발과 운용에 대해 물어 보는 고객들이 많습니다.
댓글남기기