슈퍼컴퓨터가 클라우드 기업의 새로운 먹거리로 떠오르고 있다. 인공지능(AI) 모델이 대형화되는 한편 강력한 컴퓨팅 성능을 원하는 연구·개발 분야가 늘고 있어서다. 클라우드 기업들은 자사 인프라를 이용해 슈퍼컴퓨팅 서비스를 제공하며 기존의 슈퍼컴퓨터 수요를 흡수하고 있다.
○오라클, 최고 사양 AI 슈퍼컴퓨터 공개오라클은 지난 12일(현지시간) 미국 라스베이거스에서 열린 ‘오라클 클라우드월드 2024’에서 AI 슈퍼컴퓨터 ‘OCI 슈퍼클러스터’를 발표했다. 슈퍼컴퓨터 인프라를 직접 구축하지 않고 오라클의 클라우드 서비스를 통해 슈퍼컴퓨터 수준의 고성능 AI 연산을 수행할 수 있다. 오라클은 OCI 슈퍼클러스터의 인프라 준비를 마치고 수요 기업들을 대상으로 주문을 받고 있다.
OCI 슈퍼클러스터는 최대 2.4제타플롭스(zetta FLOPS)의 성능을 발휘한다. 산술적으로 오픈AI의 GPT-3와 같은 AI 모델은 2분 내외, GPT-4와 같은 대규모언어모델(LLM)은 한 시간 내외에 학습을 완료할 수 있다. 기존 장비로 수주에서 수개월이 걸리던 AI 모델 학습 시간을 크게 단축할 수 있는 것이다. 최대 13만1072개의 엔비디아 블랙웰 그래픽처리장치(GPU)를 장착할 수 있다. 블랙웰 GPU는 지난 3월 공개된 엔비디아의 최신 GPU다. 오라클 측은 “OCI 슈퍼클러스터의 컴퓨팅 성능은 기존 최고 성능의 슈퍼컴퓨터인 ‘프런티어’의 3배에 달한다”고 강조했다.
오라클은 이번 신제품으로 클라우드 기반 슈퍼컴퓨터 시장을 본격적으로 공략한다는 계획이다. 오라클은 행사에서 일론 머스크의 AI 기업 ‘xAI’가 OCI 슈퍼클러스터를 이미 활용하고 있다고 공개했다. xAI가 지난달 공개한 멀티모달 AI 모델 ‘그록2’의 학습에 OCI 슈퍼클러스터가 사용됐다. 오픈AI도 올해 챗GPT를 서비스하는데 오라클의 클라우드 AI 서버를 도입했다.
○클라우드 기업들 슈퍼컴퓨터 경쟁오라클처럼 클라우드 서비스를 통해 슈퍼컴퓨터 인프라를 쓸 수 있는 서비스가 빠르게 늘고 있다. AI를 비롯해 강력한 컴퓨팅 성능을 요구하는 분야가 많아지고 있어서다. 마이크로소프트는 클라우드 플랫폼 애저를 통해 슈퍼컴퓨터 ‘이글’을 운용하고 있다. 아마존웹서비스(AWS)도 ‘아마존 EC2 인스턴스 클러스터’라는 이름으로 고성능 클라우드 컴퓨팅을 지원한다.
클라우드 기반 슈퍼컴퓨터들은 기존 슈퍼컴퓨터를 능가하는 결과물을 보여주고 있다. 이글은 지난해 11월 세계 슈퍼컴퓨터 500대 순위에서 3위에 올랐다. 1만4400개의 엔비디아 H100 GPU를 활용해 최대 561페타플롭스(peta FLOPS)의 성능을 구현한다. 아마존 EC2 인스턴스 클러스터는 96위에 이름을 올렸다.
지금까지 슈퍼컴퓨터는 국가기관이나 대형 연구 기관에서만 쓸 수 있었다. 슈퍼컴퓨터 인프라를 구축하고 운영하는데 천문학적인 비용이 들기 때문이다. 미국 오크리지 국립연구소의 슈퍼컴퓨터 프런티어는 구축에 약 6억달러(약 7992억원)가 투입된 것으로 추정된다. 업계 관계자는 “클라우드 기반 슈퍼컴퓨터는 유지보수 비용을 크게 절감할 수 있고 확장성에서 큰 장점을 가진다”며 “AI를 비롯한 발전과 과학 연구에 실질적인 도움이 될 것”이라고 전망했다.
일반적인 클라우드 컴퓨팅 인프라를 슈퍼컴퓨터처럼 활용하려는 시도도 진행되고 있다. 지난해 8월 페트로스 쿠무차코스 하버드 대학교 교수는 심장병 연구를 위해 구글의 클라우드 인프라를 적용했다. 구글 클라우드에서 수천 개의 가상 머신을 활용해 전용 슈퍼컴퓨터의 80% 효율성을 달성했다.
시장조사업체 모르도르 인텔리전스에 따르면 클라우드 기반 고성능 컴퓨팅(HPC) 시장은 지난해 105억달러(약 13조9800억원)에서 2029년 170억달러(약 22조6400억원)로 연평균 10.3% 성장할 전망이다.
황동진 기자 radhwang@hankyung.com