
엔비디아가 추론 특화 인공지능(AI) 가속기 '그록3 LPU(언어처리장치)'를 16일(현지시간) 공개했다.
젠슨 황 엔비디아 최고경영자(CEO)는 이날 미국 캘리포니아주 새너제이에서 열린 회사 연례 최대 컨퍼런스 GTC2026에서 "그록3 LPU를 처음으로 공개한다"라고 밝혔다.
그록3 LPU는 대형언어모델(LLM)을 실행하는 추론에 특화한 반도체다. 이 반도체는 엔비디아가 지난해 12월 그록(Groq) 핵심 인재와 기술을 영입한지 3개월 만에 내놓은 첫 성과다.
핵심은 메모리 병목을 최소화했다는 점이다. 기존 엔비디아 AI칩은 계산을 담당하는 그래픽처리장치(GPU)와 데이터를 저장하는 고대역폭메모리(HBM)가 분리돼있어 이를 오가는 데이터가 정체되는 현상이 발생한다. 그록 LPU는 연산 반도체 내에 SRAM을 탑재해 지연 시간을 최소화한다.
엔비디아의 최신형 AI칩 루빈에는 메모리 용량이 288기가바이트(GB)인 6세대 고대역폭메모리(HBM4)가 탑재되는데, 그록3 LPU에는 500분의1 수준인 500메가바이트(MB) SRAM이 들어간다. 반면 데이터 대역폭은 그록3 LPU가 초당 150테라바이트(Tb/s)로 루빈의 7배에 달한다. 작업 상황에 따라 동적으로 자원을 할당하는 GPU와 달리 LPU는 데이터의 이동 경로와 속도를 정해놓는 '결정론적 구조'를 택해 메모리 병목을 최소화했다.
데이터 지연을 극도로 최소화했지만 한계도 있다. 칩 하나 당 토큰(AI 처리의 기본단위) 생성 속도가 상대적으로 낮다. 이러한 단점을 보완하기 위해 엔비디아는 HBM의 높은 연산 성능과 LPU의 낮은 지연 속도를 결합한 새로운 AI칩을 개발 중이다.
엔비디아의 그록3 LPU 출시는 AI칩 시장의 무게 중심이 학습에서 추론으로 옮겨가는 상황에서 추론 시장 점유율을 지키기 위한 의도로 해석된다. 학습은 AI 모델을 만드는, 추론은 AI 모델을 실행하는 작업에 해당한다. 황 CEO는 "AI는 생각하려면 추론해야 하고, 행동하려면 추론해야 한다"며 "추론의 변곡점이 도래했다"고 선언했다. 그러면서 추론 시장의 성장으로 올해 10월까지 AI칩 시장이 전년대비 2배 성장한 1조달러 규모로 커질 것이라고 전망했다.
최근 구글(TPU), 아마존(트레이니엄), 마이크로소프트(마이아) 등이 내놓는 주문형반도체(ASIC)들은 추론 효율화에 초점을 맞추고 있다. LPU는 이 중 빠른 데이터 처리가 핵심인 코딩,실시간 검색 등에 주로 쓰일 것으로 전망된다.
엔비디아의 차세대 LPU는 삼성전자 파운드리에서 생산된다. 황 CEO는 이날 약 2만명이 수용 가능한 SAP센터에서 "삼성전자가 우리를 위해 그록3 LPU 칩을 제조하고 있다"라며 "올해 하반기, 아마 3분기 쯤에 출하가 시작될 것이다. 삼성에 정말 고맙다"고 말했다.
실리콘밸리=김인엽 특파원 inside@hankyung.com