[블록미디어 박현재] ChatGPT로 촉발된 AI 산업의 폭발적 성장은 기술 업계의 지형을 순식간에 바꾸고 있다. 그러나 이 눈부신 전진을 쭉 이어가기엔 심각한 컴퓨팅 인프라 부족 문제가 도사리고 있다. 최신 AI 모델을 학습하기 위해서는 연산 자원이 필요한데, 이를 뒷받침할 GPU 공급이 따라주지 못하고 있기 때문이다.
내가 가지고 있는 고사양 컴퓨터를 활용해 오픈AI의 예전 모델인 GPT-3을 학습시키기 위해서는 약 300~400년이 걸린다. 1750억 개의 파라미터를 사용한 것으로 알려졌는데 다음 버전인 GPT-4는 약 2조 개의 파라미터를 사용한 것으로 알려져 있으니, 일반 컴퓨터로는 수만 년이 걸려도 모자라다는 뜻이다. 그 다음 버전인 GPT-5는 얼마나 걸릴 지 감히 예측하기 어렵다. 컴퓨팅 파워를 확충하는 것은 하드웨어 발전 속도를 따라가다 보니 쉽게 GPT-5와 6가 나올 수 없는 것이다.
# AI의 엔진, GPU는 어떻게 만들어지나?
AI 혁신의 동력은 다름 아닌 GPU다. 대규모 행렬 연산에 특화된 GPU는 AI 모델의 훈련과 추론을 책임지는 핵심 엔진이다. 하지만 최신 GPU를 생산하는 일은 극도로 복잡하고 더디다. 예컨대 엔비디아의 H100 GPU는 손바닥만 한 800㎟ 실리콘 위에 800억 개 트랜지스터를 정밀하게 집적한 칩이다. 이 칩 하나를 만들기 위해선 머리카락 굵기의 수만 분의 일에 해당하는 회로를 수백 층 쌓아야 하며, TSMC 같은 최첨단 파운드리의 수십 개 생산 공정을 통과해야 한다. 완성까지 평균 3~4개월, 말 그대로 한 개 만들기에 한 분기가 소요되는 셈이다.
여기에 들어가는 장비와 시설은 천문학적 비용이 든다. EUV 노광 장비는 한 대에 수천억 원, 최신 공정(5nm 이하) 기반의 칩 설계에는 수억 달러가 필요하다. 그럼에도 생산 능력은 급격히 늘리기 어렵다. 업계에선 이를 두고 “GPU 생산은 슈퍼카 엔진을 수작업으로 조립하는 수준”이라고 표현한다. 이처럼 이미 지금도 최첨단 기술과 자본을 총동원해서 간신히 만들어내는 수준이기 때문에, 여기서 더 고사양의 반도체를 더 많이, 더 빨리 만든다는 것은 물리적으로 한계가 있다. 그래서 최신 AI에 쓰이는 GPU는 점점 희소한 자원이 되고 있고, 공급 부족으로 가격도 폭등하고 있다.
H100의 정가는 약 1만~2만 달러지만, 시장 가격은 2만 5천 달러 이상이며, 실제로도 몇 달 대기해야 받을 수 있다. 반면 제조원가는 약 1,000달러, 손익분기 가격은 약 5,000달러 수준으로 추산되지만, 수요가 공급을 압도하면서 몇 배 가격에 거래되고 있는 것이다. 이제 고성능 GPU는 AI 산업의 목줄을 쥔 전략 자원이 됐다.
# AI 수요는 광속, GPU 공급은 음속
현재 AI 기술의 발전 속도는 GPU 생산 속도를 훌쩍 앞지르고 있다. OpenAI 연구에 따르면, 최첨단 AI 모델에 투입되는 연산량은 몇 달 만에 두 배씩 증가할 정도로 가파르게 상승해 왔다. 반면 반도체 성능 향상의 법칙인 무어의 법칙(약 2년마다 집적도 2배)이나 생산능력 증가는 그에 훨씬 못 미친다. 결과적으로 AI 업계의 GPU 수요는 기하급수적으로 늘고 있지만, 공급은 이를 따라잡지 못하는 병목현상이 발생하고 있다.
이 수요-공급 격차는 숫자로도 드러난다. 글로벌 컨설팅사 베인앤드컴퍼니는 “향후 수년간 AI 워크로드가 매년 25~35% 증가하여 2027년에는 AI 관련 하드웨어·소프트웨어 시장 규모가 7,800억~9,900억 달러에 달할 것”으로 전망했다. 불과 2023년에 2,000억 달러 아래였던 시장이 4~5배로 뛰는 것이다. 올해에도 AI 핵심 부품 수요가 30% 이상 늘어나 현재 생산 능력을 초과할 것이라는 경고도 나왔다. 실제로 아마존 AWS 클라우드는 “생성형 AI 열풍으로 GPU 수요가 공급을 앞질렀다”고 이례적으로 밝히기도 했다. 엔비디아 역시 GPU 부족 현상이 수년간 지속될 것으로 내다보고 있다.
수요 폭증에 공급 병목이 맞물리면서, AI 인프라 부족은 현실화된 문제다. AI 스타트업들은 원하는 만큼 GPU를 확보하지 못해 개발 차질을 빚거나, 거대 테크기업들도 한정된 GPU 자원을 두고 우선순위 다툼을 벌이는 상황이다. 한편으로는 AI 인프라 시장 자체가 엄청난 성장 산업으로 부상했다. 2024년 현재 전세계 반도체 시장 규모가 약 6천억 달러 수준인데, AI 인프라 시장이 머지않아 연 1조 달러에 육박한다는 전망은 그 규모의 어마어마함을 보여준다. 이는 전 세계 기술 지출의 약 1/5에 해당하는 수준이다.
이렇듯 AI 붐을 떠받칠 컴퓨팅 인프라에 천문학적 투자와 기회가 몰리고 있지만, 동시에 기술적·물리적 병목으로 인한 공급 불안도 커지는 양상이다. 그러면 이 문제를 해결할 돌파구는 없을까?
# 탈중앙화 컴퓨팅 – 숨은 GPU를 모아라
GPU 부족을 해결하는 가장 직접적인 방법은 더 많이 생산하는 것이지만, 앞서 본 것처럼 첨단 GPU 증산은 단기간에 어렵다. 이런 한계를 넘기 위한 새로운 해법으로 탈중앙화 컴퓨팅(DePIN)이 주목받고 있다. 대표적인 사례로는 아카시 네트워크(Akash Network)와 아이오넷((io))이 있다.
이들의 아이디어는 간단하다. “놀고 있는 GPU를 모아 필요한 곳에 쓰자”는 것이다. 실제로 글로벌 서버 인프라의 5~30%는 유휴 상태라는 조사도 있으며, 이더리움 채굴 종료 이후 사용되지 않는 GPU 자원이 많아졌다. 또 기존 클라우드는 접근성과 비용 측면에서 장벽이 높아, 중소 개발자들은 연산 자원을 구하기 어렵다.
예컨대 아카시는 2021년 메인넷을 시작한 이후 2023년 GPU 기능을 추가했고, 2024년 3분기 기준 일 평균 약 420개의 GPU가 네트워크에 연결됐다. 전 분기 대비 8.5% 증가했고, 같은 분기 매출은 전년 대비 17배 폭증했다. 아직 전체 시장 대비 규모는 작지만, 분기마다 두 자릿수 성장을 이어가고 있다.
아이오넷도 눈에 띈다. 2023년 말 론칭 후 1년 만에 약 1.9만 개의 GPU와 6천 개 CPU 노드를 확보했고, 렌더(RENDER)및 파일코인(FIL) 등과 연계해 2천 개 이상의 GPU를 추가로 통합했다. 이는 초대형 AI 프로젝트에 투입되는 GPU 규모에 맞먹는 수준이다. 현재 탈중앙화 컴퓨팅이 감당하는 비중은 전체 AI GPU 수요 대비 1% 미만이다. 하지만 빠른 성장세와 기술 확장성은 향후 실질적인 보조 인프라로 자리 잡을 가능성을 보여준다.
무엇보다 비용 절감이 강점이다. AWS나 Azure 대비 1/3 수준의 가격으로 GPU 인스턴스를 임대할 수 있으며, 이는 예산이 부족한 AI 스타트업에 매력적인 선택지다. 게다가 검열 저항성, 자율성, 확장성 측면에서도 기존 클라우드 대비 장점이 있다. 아이오넷은 “유휴 GPU를 규합해, 생산 지연을 메우고 AI 혁신을 가속한다”는 비전을 제시한다.
물론 과제도 있다. 분산된 GPU를 묶어 데이터센터급 안정성과 성능을 꾸준히 제공할 수 있느냐는 기술적 도전이 있다. 이를 해결하기 위해 아카시는 엔비디아와의 기술 통합을 발표하며, 고밀도 GPU 자원에 대한 접근성 확대에 나서기도 했다. 기존 산업과의 상생형 진화를 도모하는 움직임이다.
엔비디아 주가가 1년 새 3배 오르고, AI 데이터센터에 수조 원대 투자가 쏟아지는 현실은 AI 인프라가 그 자체로 핵심 투자 테마가 되었음을 보여준다. 그러나 인프라 부족이 해소되지 않는다면, AI 혁신의 성과는 일부 대기업에만 집중되고 전체 산업 발전을 늦출 수 있다.
이런 맥락에서 탈중앙화 컴퓨팅은 AI 인프라의 병목을 완화할 보완적 해법으로 주목받는다. 아직은 초기 단계지만, 수천억 달러 규모로 성장할 AI 인프라 시장에서 이들이 차지할 몫은 점차 커질 수 있다. 과거 클라우드 컴퓨팅 초기에 AWS와 애저가 폭발적 성장을 이뤘듯, 분산형 클라우드 플랫폼도 신흥 인프라로 자리잡을 수 있다. 결국 AI 산업의 미래는 컴퓨팅 인프라의 확장성에 달려 있다. 탈중앙화 컴퓨팅은 공급 병목을 완화하고, 더 많은 이들의 참여를 이끌어내는 역할을 할 수 있다.
같이 보면 좋은 기사