이틀 전 미국에서 있었던 젠슨 황 엔비디아 CEO의 GTC 2026 기조연설 발표 보셨나요? 저는 새벽에 유튜브로 생중계되는 연설을 보면서 매년 5~6월쯤 열리는 유럽 챔피언스 리그 결승전을 보는 듯한 기분이 들더라고요.
전 아무래도 한국인 반친자다 보니 가장 설레는 포인트는 젠슨 황이 삼성 파운드리의 그록 추론 칩 'LPU(Language Processing Unit)' 생산을 샤라웃(shot out)해주는 장면이었습니다. 그래서 이번 편을 준비했습니다. LPU는 뭐고 삼성은 이걸 어떻게 생산할까. 지금부터 보시겠습니다.<hr style="display:block !important; border:1px solid #c3c3c3" />왜 엔비디아는 그록을 선택했을까<hr style="display:block !important; border:1px solid #c3c3c3" />
우선 LPU가 도대체 뭔지 살펴보겠습니다. 젠슨 황은 왜 GTC 2026에서 그록의 LPU 3를 언급했을까. 한마디로 요약하면 최근에 황 CEO가 '역할 분담'에 꽂혔기 때문으로 보입니다.
젠슨 황 CEO가 GTC에서 공개한 슬라이드 한 장을 보시면 답이 금방 나옵니다.

AI의 연산 과정은 아주 크게 세 가지로 구분됩니다. 프리필(Prefill)→어텐션(Attention·Attn)→FFN(순방향 신경망·Feed Forward Network)입니다. 용어가 생소하지만 실제 활용 사례로 비춰보면 별로 어렵지 않습니다.
예를 들어 독자님께서 챗GPT에 "지드래곤은 왜 유명한 아티스트야?"를 물었다고 가정합시다. 이 때 AI가 문장을 '지드래곤, 왜, 유명한, 아티스트' 등으로 쪼개어서 질문을 해석하는 과정이 첫 번째 과정인 프리필입니다.
이 과정에선 'KV 캐시'도 생성됩니다. 사용자가 예전에 지드래곤에 대해 물었던 기록, AI가 과거의 그 물음에 대한 답을 찾기 위해 꿍쳐놨던 정보를 HBM 같은 메모리에서 끌어옵니다. 사용자와 AI 사이의 맥락을 살피는 과정이기도 하죠.
이 기억들을 끌어와서 중요도(가중치)를 매기는 것이 다음 과정인 '어텐션'입니다. 말 그대로 답변으로 사용할 만한 가치를 지닌 재료들을 뽑아서 손질하는 과정입니다. 지드래곤의 찬란한 패션·비교불가의 음악 능력과 사회적인 영향력을 분석하고 유명한 이유를 계산합니다.
그리고 어텐션에서 마치 손질한 재료들을 후라이팬에 담아 볶거나, 굽거나 냄비에 삶아서 먹음직스런 요리의 형태로 만드는 게 'FFN(Feed-Forward Network)'입니다. 순방향 신경망. 어텐션처럼 기억된 다양한 정보들을 요리조리 살펴보지 않고 직진으로 연산을 끝낸다고 해서 정해진 이름입니다.
이 과정을 거쳐 사용자들이 눈앞에서 보는 새로운 정보(토큰)가 생성되죠.
젠슨 황은 이 세 단계를 한 개 서버나 칩이 감당하기에는 이제 AI 모델이 너무 커졌다고 생각합니다. 게다가 AI를 사용하는 사람들이 급증하고 있다는 것에도 문제 의식을 느낍니다. 그래서 칩과 칩, 서버와 서버의 연결을 넘어, 랙(rack) 간 연산 분업을 택한 겁니다.

그는 특히 랙 분업에 대한 큰 그림을 그리던 중, 그록의 LPU가 FFN을 맡기기에 딱이라는 결론을 내리고 그록을 약 30조 원에 인수했던 것 같습니다.
그록 LPU의 가장 큰 장점은 속도입니다. LPU의 핵심은 뭐니뭐니해도 S램이라는 기억장치인데요.
우리가 잘 알고 있는 메모리인 D램은 정보를 저장해두는 공간인 '커패시터'를 두고 있는 반면에 말이죠. S램은 연산 장치와 같은 구조인 여러 개의 '트랜지스터'로 구성돼 있습니다. 구조가 비슷하니 연산 소자↔기억장치 데이터 이동 간 형태를 변환할 필요가 없습니다.
게다가 S램은 한 개의 연산 칩 안에 블록 형태로 들어가 있어서요. 외부에 장착된 D램처럼 연산 장치와 물리적 거리가 아예 없어 확실히 데이터 전송 속도가 빠릅니다. 물론 속도는 빠르지만 저장 용량이 D램보다 작고 비싸고 저장된 정보 휘발성이 높다는 단점도 있습니다.

그록은 HBM, GDDR 같은 외부 D램 안쓰고 S램에 아예 '몰빵'하겠단 전략을 세웁니다. 굉장히 파격적입니다. 생성형 AI에서 속도를 '극대화'하겠단 괴짜같은 컨셉이죠. 그런데 이게 젠슨 황 CEO가 가만 보니까 FFN 단계에서 굉장히 괜찮은 아이디어로 보였던 것 같습니다.
어텐션 때처럼 KV 캐시 등에서 커다란 데이터를 계속 꺼내오고 저장 공간을 왔다갔다 반복하며 재료를 손질하는 게 아니라, 이미 어느정도 손질이 된 것을 빠르게 직진으로 계산만 하면 되는 구간이기 때문입니다.
데이터 저장 용량이 적고, 빠르게 지워질 수 있다는 단점까지도 상쇄될 수 있는 부분입니다. 그냥 칩 안으로 들어온 데이터를 한 방향으로 계산해서 밖으로 빼내면 되는거니까요.
그렇게 LPU는 젠슨 황의 AI 패밀리 안으로 들어옵니다. 그리고 이걸 삼성전자가 4나노 공정으로 생산합니다.
<hr style="display:block !important; border:1px solid #c3c3c3" />삼성 파운드리는 그록 수주로 얼마를 벌까<hr style="display:block !important; border:1px solid #c3c3c3" />
젠슨 황의 힘은 대단합니다. 사실 그록은 2023년부터 삼성 파운드리와 4나노 공정에서 협력을 시작했거든요? 원조 깐부입니다.
근데 그 당시 제가 취재할 때 "변변한 빅테크 수주 없이 칩 스타트업 수주만 해온다"는 다소 염세적(?) 시각도 있었습니다.
하지만 16일(현지시간) 젠슨 황의 그록 샤라웃 이후 각 미디어에서 '그록 칩을 삼성 파운드리에서 만든다'고 대서특필하는 것 보면, 정말 젠슨 황의 영향력이 굉장하다는 것이 느껴집니다.
아무튼 그러면 지금부터는 여러 수치를 토대로 추론을 해보려고 합니다. 삼성전자 파운드리는 그록 3 LPU 칩 수주로 얼마를 벌게 될까. 제가 알고 있는 LPU와 삼성 파운드리 관련 수치들을 펼쳐보겠습니다.

우선 젠슨 황 CEO가 발표한 그록 서버 한 대에는 8개 LPU가 들어갑니다. 이 서버가 32대 모이면 한 개 랙이 되고요. 그러니까 한 랙에는 256개 LPU가 들어가는 셈입니다.
한 개의 완성된 베라루빈 플랫폼 안에는 5개의 랙이 장착됩니다. 그럼 이 플랫폼 안에는 1280개의 LPU가 들어갑니다.
업계에 따르면 엔비디아는 일단 삼성전자 파운드리에 약 50만 개의 LPU 3를 생산해 달라는 요청을 했다고 합니다. 기존 계획됐던 생산량에서 2배 넘는 증량으로 알려졌습니다.
단순 계산으로 생산한 모든 칩으로 랙을 만든다면, 1950개의 LPU 랙을 만들어서 390개의 베라루빈 플랫폼 세트에 넣겠다는 구상인 것 같습니다.

젠슨 황 CEO와 한진만 삼성전자 파운드리 사업부 사장이 며칠 전 GTC 전시장에서 찍은 기념사진에 나온 LPU 웨이퍼를 들여다 보면, 한 웨이퍼에 찍히는 정상적인 모양의 LPU 다이 수는 65개 정도 됩니다.
50만 개 LPU를 만들려면 65개 칩을 만들 수 있는 웨이퍼가 7692장이 필요한데요. 이건 수율 100%일 때 기준입니다.
현재 삼성전자의 4나노 수율이 50~70% 정도인 걸 고려하면, 최근 언론상에도 보도된 연간 1만 5000장 (7692X2) 이상의 웨이퍼가 필요한 것으로 추산이 가능합니다.
삼성전자 4나노 공정의 웨이퍼 장당 가격은 제가 듣기로 최소 1만1000달러 정도 됩니다. 혹시 모를 가격 인상을 고려해 약 1만 3000달러 정도로 치면 1억 9500만 달러, 3000억 원 안팎의 돈을 LPU 생산으로 벌 수 있다는 계산이 나옵니다.
삼성전자 파운드리사업부의 연매출이 20조원 내외로 알려진 것을 고려하면 아주 미미한 매출입니다.
하지만 일단 그록이 엔비디아라는 거대한 품 안에 들어갔고, 젠슨 황 CEO가 GTC 2026 기조연설에서 LPU를 언급했다는 건 앞으로 이 칩의 쓰임새나 생산량이 훨씬 더 늘어날 가능성이 큰 쪽으로 무게가 실립니다. 비전이 있다는 이야기죠.
GTC 2026, 리사수 AMD CEO의 방한으로 뜨거웠던 이번 주 반도체 씬. 추론 시장의 성장으로 부각된 그록과 삼성전자 파운드리 사업부의 협력과 이들의 성장을 지켜보는 것도 아주 흥미로운 포인트가 아니었나 싶습니다.
오늘은 여기서 마무리합니다. 목요일 파이팅하세요!
강해령 기자 hr.kang@hankyung.com