코스피

5,089.14

  • 74.43
  • 1.44%
코스닥

1,080.77

  • 27.64
  • 2.49%
1/3

엔비디아 칩에 무슨 문제가...빅테크 1년간 '발동동'

페이스북 노출 0

핀(구독)!


뉴스 듣기-

지금 보시는 뉴스를 읽어드립니다.

이동 통신망을 이용하여 음성을 재생하면 별도의 데이터 통화료가 부과될 수 있습니다.

엔비디아 칩에 무슨 문제가...빅테크 1년간 '발동동'

주요 기사

    글자 크기 설정

    번역-

    G언어 선택

    • 한국어
    • 영어
    • 일본어
    • 중국어(간체)
    • 중국어(번체)
    • 베트남어


    인공지능(AI) 칩 1위 기업 엔비디아의 최신 그래픽처리장치(GPU) '블랙웰'이 서버 구축 과정에서 오작동해 이를 도입한 빅테크들이 낭패를 겪은 것으로 드러났다.


    미 정보기술(IT) 전문매체 디인포메이션이 내부 소식통을 인용해 오픈AI와 메타 등 주요 AI 기업들이 지난해 내내 블랙웰 기반 AI 서버를 구축하고 최적화하는 과정에서 어려움을 겪었다고 6일(현지시간) 보도했다.

    블랙웰 이전의 엔비디아 칩은 납품 후 몇 주 안에 쉽사리 설치하고 가동할 수 있었던 반면 블랙웰은 문제가 빈번했다는 것이다.


    칩 자체의 성능은 문제가 아니었다. 이를 대규모로 연결해 하나의 거대한 시스템처럼 작동하도록 하는 과정의 복잡성이 문제였다.

    72개의 '그레이스 블랙웰'(GB) 칩을 잇자 발열과 연결 관련 문제가 나타났다는 것이다.



    칩 가운데 하나만 오작동을 일으켜도 칩 수천 개로 구성된 전체 클러스터가 장애를 일으키거나 중단되는 사례도 있었다.

    이와 같은 장애로 작업이 중단되면 마지막 저장 시점에서 다시 시작해야 해 기업들은 수천∼수백만 달러의 비용을 들여야 했다.


    오라클은 AI 데이터센터를 구축하며 이처럼 블랙웰 칩 구축의 기술적 어려움 등 때문에 약 1억 달러(약 1천400억원)의 손실을 봤다.

    고객사인 오픈AI가 텍사스주 데이터센터의 블랙웰 서버에 대해 한동안 승인을 늦췄기 때문이다.


    고객사들이 불만을 제기하자 엔비디아는 지난해 부분 환불을 해주거나, 할인을 제공하는 등 수습에 나섰다.

    지난해 3분기에 관련 문제를 개선한 새 버전 'GB300'을 내놓은 이후에야 문제는 개선되기 시작했다.



    오픈AI 등 고객사들은 아직 받지 못한 기존 칩을 새 버전으로 교체하고 있다고 소식통은 전했다.

    엔비디아는 출시가 예정된 신형 '베라 루빈' 칩에도 동일한 개선 사항을 적용했다.

    한편 엔비디아는 올해 게임용 GPU는 출시하지 않기로 한 것으로 알려졌다. AI 칩 수요 폭증에 따른 공급 부족 등 때문이다.

    게임용 칩 설계로 출발한 엔비디아가 게임용 GPU를 내놓지 않은 것은 30여년 만에 최초다.

    (사진=연합뉴스)



    한국경제TV  디지털뉴스부  박근아  기자
     twilight1093@wowtv.co.kr

    실시간 관련뉴스