젠슨 황 엔비디아 CEO가 'CES 2026'에서 발표했던 신비한 메모리 플랫폼이 하나 있었죠.
'Inference Context Memory Platform.' 추론 맥락 메모리 플랫폼? 오늘 테크앤더시티에서는 이게 무엇인지 자세히 뜯어보도록 하겠습니다. 핵심 키워드 : KV 캐시젠슨 황 엔비디아 CEO가 지난 5일(현지시간) 미국 라스베이거스에서 열렸던 '엔비디아 라이브' 연설 말미. 젠슨 황은 메모리 플랫폼 이야기를 꺼내기 시작했습니다. 귀를 쫑긋 세울 수밖에 없었죠. 또 제 2의 HBM인 건가?
젠슨 황 CEO가 가리킨 것은 베라루빈 AI 연산 플랫폼의 한 구석을 차지한 검은 색깔의 랙이었습니다. 오늘 이야기의 주인공인 이 랙엔 엄청난 양의 저장 장치가 들어있습니다.
우선 젠슨 황이 이걸 왜 소개했는지에 대한 설명부터 들려드리려고 합니다. 우리는 황 CEO가 공식 석상에서 자주 언급하는 'KV 캐시'부터 짚고 가야 합니다. 독자님들 요즘 GPU나 AI 하드웨어에 관한 기사 보실 때, KV 캐시에 대한 말을 많이 들어보셨을 겁니다.
이 키워드는 AI 추론 시대에서 굉장히 중요한 키워드입니다. AI의 대화 맥락을 짚는 센스는 물론 효율적인 연산에 관한 이야기이거든요. 쉬운 예를 들어볼까요. 독자님이 오픈AI의 챗GPT·구글 제미나이를 열고 K팝 최고의 스타 지드래곤에 대해 질문한다고 가정해봅시다.
사용자가 이 대화창에서 지드래곤의 음악·패션 ·경력 등 객관적인 정보를 묻는다면, AI는 학습된 정보로 답할 수 있죠. 그런데 사용자는 한참 얘기를 하더니 문득 "그럼 그 분은 왜 한 시대의 '아이콘'인거야?"라고 묻습니다. 마치 논술 문제 같이 딱 떨어지는 답을 낼 수 없는 질문을 한거죠. 이제부터 AI가 추론을 시작합니다.
이때 KV 캐시가 중요합니다. Key와 Value. 일단 key는요. 우리야 금방 캐치할 수 있지만 AI는 지금 대화에서 질문의 '그 분'이 문맥 상 누구인지, 답변의 주어와 목표가 무엇인지 Key 벡터를 통해 명확히 파악해 조준하고요(Key). 사용자와 대화하면서 조사해뒀던 지드래곤에 관한 모델 내 중간 계산 값과 각종 데이터(Value)를 총동원해 가중치를 매기고, 추론을 하며 답을 만들어 나갑니다.
KV캐시 없이 질문이 나올 때마다 마치 처음인 것처럼 새롭게 연산하면 GPU도 일을 두번 세번 반복해서 효율성이 떨어지고요. AI의 환각 현상이 심해져 엉뚱한 대답을 할 수 있습니다.
그러나 KV캐시로는 효율적일 수 있죠. 지금 이 순간 사용자와 한참동안 나눴던 대화에서 얻은 각종 데이터를 재사용해 여기서 가중치를 매겨쓰는 '어텐션(attention) 계산' 토대의 추론이 훨씬 빠르고 대화도 자연스럽습니다.
이 KV 캐시는 AI 산업이 학습에서 추론 시대로 넘어가면서 단순한 보조 기억의 수준을 넘어가고 있습니다. 게다가 여기 필요한 용량이 갈수록 커지고 있다는 것도 문제입니다.
일단 생성형 AI를 일상에서 루틴처럼 사용하는 사람들이 더욱 늘어나니 불규칙한 데이터 급증은 당연한 것이고요. 이미지와 동영상 서비스가 추가되면서 AI의 고차원적 추론과 상상을 원하는 사람들이 늘어나면서 더 폭발합니다.
AI가 새로운 정보를 찾아내는 능력도 진화하면서 사용자와 대화의 맥락 군데군데 유용한 KV 캐시도 많이 만들어놓을 겁니다.
이렇게 KV캐시가 폭발적으로 늘어나면서 엔비디아는 GPU 교통정리도 했습니다. KV캐시를 폭발적으로 생성하는 GPU, 이 KV캐시를 쓰는 GPU로 구획을 나누기도 했는데요. 그런데 막상 이걸 저장해둘 수납장은 부족했습니다.
물론 서버 안에 메모리 많이 있죠. GPU 옆의 HBM→안되면 D램 모듈→진짜로 더 안되면 서버에 있는 SSD까지 동원합니다. 그런데 젠슨 황 CEO가 가만 보니 이 구조로는 앞으로 추론 시대를 대응하기가 매우 힘들다는 생각을 한 것 같습니다. 그래서 CES에서 이 검은 색깔 상자를 내놓았습니다.
DPU+초고용량 SSD = KV캐시 저장 전담팀
이 검은 색깔 서버는 '추론 맥락 메모리 플랫폼'입니다. 줄여서 ICMS라고 부릅니다. 스펙을 좀더 뜯어보겠습니다.
우선 ICMS를 이끄는 장치로 DPU가 있습니다. DPU는 데이터처리장치(Data Processing Unit)인데요. 독자님들께서 GPU·CPU는 상당히 익숙하시죠. 그런데 서버 안엔 숨은 공신 DPU 역할도 볼만 합니다.
DPU는 군대로 치면 행정보급관입니다. CPU가 중대장이라면 GPU는 연산 특공대죠. DPU는 CPU가 적절한 판단을 하고, GPU가 공격에 전념할 수 있도록 탄약과 식사 추진을 책임지고 통신·이동까지 담당합니다.
엔비디아의 새로운 DPU인 '블루필드-4'가 새로운 임무를 받은 곳이 ICMS입니다. 이제 ICMS 플랫폼을 좀 더 자세히 살펴볼까요. 이 랙에는 총 16개의 SSD 트레이가 있습니다.
한 개의 트레이에는 4개의 DPU가 있습니다. DPU 하나당 150TB의 SSD를 관리합니다. 그러니까 한 트레이에는 총 600TB의 캐시용 SSD가 있는 거죠.
이건 꽤 큰 저장 용량입니다. 비교를 해볼까요. 블랙웰 GPU 서버에서, SSD를 놓는 곳에 KV캐시를 극대화하기 위해 범용의 3.84TB짜리 캐시 SSD 8개를 꽂는다고 가정해보면요. 서버 당 30.72TB SSD가 배치되는 거니까, 18개 서버가 모인 한 개 GPU 랙에는 552.96TB SSD 용량이 있다는 뜻입니다.
그러니까 ICMS의 한 개 트레이가 GPU '랙'에 들어가는 캐시 SSD 용량을 넘어설 수도 있다는 뜻입니다. 한 개 랙에 있는 SSD의 양은 총 600TBX16이니까, 9600TB입니다. 베라루빈의 풀 세트인 8개 GPU 랙 SSD 용량(4423.68TB, 552.96x8)의 두배를 상회하죠.
젠슨 황은 CES 발표에서 "기존 GPU 대당 메모리 용량은 1TB였으나, 이 플랫폼으로 인해 16TB의 저장용량을 더 가지게 된 셈"이라고 말했습니다.
그의 말을 역산해보면 진짜 그런가 싶습니다. 베라루빈 플랫폼 풀 세트가 8개 GPU 랙으로 구성돼 있죠. 한 개 랙은 72개 GPU로 구성돼 있으니 576 장. ICMS의 총 용량인 9600TB을 576 장으로 나누면 대략 16.7TB가 나옵니다.
물론 서버와 떨어진 물리적 거리감, SSD 속도에 대한 우려도 있지만 블루필드4 성능 개선으로 완화했습니다. 젠슨 황 CEO는 "기존과 동일한 KV캐시 전송 속도인 초당 200GB를 구현했다"고 설명했습니다.
또한 기존 GPU 서버에서 네트워크 병목으로 7.68TB, 15.36TB 등 고용량의 SSD 제품이 있어도 제대로 활용하지 못했던 문제가 있었는데, 이번에 DPU 기반으로 네트워크를 크게 개선하면서 만회하려는 느낌입니다.
'쩌리' 취급 낸드도 황금기 오나
엔비디아는 이 플랫폼을 메모리 그룹에서 3.5그룹으로 나눴습니다. 1그룹은 HBM→2그룹은 D램 모듈 →3그룹은 서버 내 로컬 SSD → 4그룹은 서버 외에 있는 스토리지였는데요.
이 3그룹과 4그룹 사이에서 오묘하게 움직이는 이 영역을 ICMS가 파고든거죠. D램처럼 비싸거나 전력을 많이 먹는 것도 아니요, 속도는 하드디스크보다 빠르고 용량도 큰데다 전원이 꺼져도 정보가 날아가지 않는 SSD(feat.성능 짱짱한 DPU)가 딱이라는 겁니다.
이 플랫폼이 삼성전자·SK하이닉스에게 좋은 기회가 되는 것은 분명합니다. 랙 하나만 9600TB가 추가됐으니까, 비트로만 따지면 기존 엔비디아 랙보다 몇 배의 낸드를 더 얹어 팔 수 있다는 계산이 나오죠. 더군다나 이 제품을 기획한 회사는 세계 모든 AI 회사들이 러브콜을 보내는 엔비디아니까 기회는 더 커집니다.
지난 3년간 낸드와 SSD는 AI 시장이 무럭무럭 커졌어도 주목을 많이 못받았습니다. 효자 역할을 톡톡히 했던 HBM보다 쓰임새가 덜하다는 이유였는데요.
ICMS를 시작으로 엔비디아는 SSD의 활용도를 더 극대화하는 프로젝트도 준비중입니다. '스토리지 넥스트', 일명 SCADA(Scaled Accelerated Data Access)의 일환이기도 합니다.
지금처럼 AI 연산을 하는 GPU가 CPU같은 제어 장치를 거치지 않고 곧바로 낸드플래시(SSD)에 접근해서 각종 데이터를 가져오는 형태입니다. GPU-SSD 사이에 있던 병목 지점을 제거해버리겠다는 과감한 아이디어죠.
SK하이닉스도 이에 대응하는 AI-N P 개발을 공식화했습니다. 김천성 SK하이닉스 부사장은 "SK하이닉스는 'AI-N P'라는 이름 아래 엔비디아와 사전실험(PoC)을 열심히 진행 중"이라고 밝히기도 했습니다.
그는 "올해 말 정도에 PCIe 6세대 기반으로 2500만 IOPS(초당 입출력 수행 능력) 정도를 지원하는 스토리지 시제품이 나올 것 같다"며 "2027년 말이면 1억 IOPS까지 지원하는 제품을 만들 수 있을 것"이라고 설명했습니다. 2500만 IOPS면 현존 SSD 속도의 10배 이상입니다.
향후 삼성전자, SK하이닉스가 엔비디아의 청사진, 또 이 프로젝트로 인해 발생할 수 있는 낸드 전성시대에 어떻게 대응해 나갈지 지켜보면서 오늘 글 마칩니다. 주말 잘 보내세요!
강해령 기자 hr.kang@hankyung.com