구글이 인공지능 기술 ‘터보퀀트’(TurboQuant)를 공개하면서 메모리 반도체 수요 전망에 대한 상반된 시나리오가 동시에 제기되고 있다. 비관적 시나리오에 삼성전자와 SK하이닉스 등 국내 메모리 반도체 공급 업체 주가도 큰 폭으로 하락했다. 지난 24일 구글은 구글리서치 블로그와 소셜네트워크서비스(SNS) 계정에 ‘터보퀀트’ 기술을 소개했다. ‘터보퀀트’는 문맥 손실 없이 메모리 사용량을 최소 6배 이상 줄이는 양자화 알고리즘이다.
LLM(대규모언어모델)은 나누는 대화량이 많아질수록 정보를 처리하기 위해 쓰이는 메모리 사용량도 늘어난다. AI 모델은 대화를 나누고 그 내용을 이해하고 처리한다. AI 모델은 이 정보를 ‘벡터’로 이해하고 처리하는 것이다. 이때 단어, 문장의 의미, 이미지의 특징 등 복잡한 정보를 담는 것을 고차원 벡터라 한다.
AI 모델은 처리 과정에서 LLM의 임시 기억장치인 ‘KV 캐시’(Key Value Cache)를 이용한다. KV 캐시는 정보와 대화의 맥락을 저장하는 역할을 한다. 처리하는 양이 많아지고, 복잡한 정보인 고차원 벡터가 많아질수록 AI 모델의 속도는 느려지고 KV 캐시 메모리 사용량도 늘어나게 된다. 이때 KV 캐시에 병목 현상이 일어난다.
한 부분이 느려져 전체 속도가 느려지는 병목 현상을 해결하기 위해 고차원 벡터를 압축한다. 이를 ‘벡터 양자화’라고 부른다. 표준 규격을 만들어 다양한 데이터를 규격화해 저장하는 것이다. 다만, 이때 다시 표준 규격을 해석하는 별도의 데이터가 필요해 또 다른 메모리가 필요하다는 한계가 있었다.
구글이 새롭게 발표한 ‘터보퀀트’는 KV 캐시 메모리를 6분의 1로 압축해 사용할 수 있게 해준다. 최대 3비트 수준으로 압축할 수 있다. 처리 속도도 더 빨라진다. 구글이 발표한 연구에 따르면 ‘H100 GPU’ 기준으로는 ‘터보퀀트’가 기존 32비트 방식에 비해 최대 8배나 빠른 것으로 나타났다.
다시 말해 ‘터보퀀트’는 KV 캐시에 저장되는 벡터 데이터를 3~4비트 수준으로 압축해 메모리를 크게 줄이면서도, 모델이 단어·이미지·정보 사이의 의미적 관계를 거의 그대로 이해할 수 있게 해주는 기술이다. AI 에이전트, 온디바이스 AI 등 AI 모델의 거대화로 발생하는 KV 캐시 병목 현상을 해결할 것으로 기대된다.
AI의 발달로 단순 키워드 검색이 아닌 의미 기반의 검색이 늘어나고 있다. 이때 여러 개의 벡터 중 가장 의미상으로 가까운 항목을 찾는 ‘벡터 검색’이 요구된다. 구글리서치는 ‘터보퀀트’를 이용해 ‘벡터 검색’을 적은 메모리로 빠르고 정확하게 수행할 수 있다고 밝혔다.
구글은 LLM과 ‘벡터 검색’ 성능을 크게 높일 수 있다며 ‘터보퀀트’를 차세대 AI 인프라 핵심 기술로 평가했다. 구글은 해당 기술을 실제 적용 사례와 함께 공개됐다.
‘터보퀀트’가 공개되고 메모리 수요가 둔화할 것이라는 분석이 제기됐다. 메모리 사용량이 감소할 것이라는 우려에 미국 마이크론의 주가는 하락했다. 미국 나스닥에 상장된 마이크론 테크놀로지는 전일 3.4% 하락한 382.09달러에 장을 마감했다. 샌디스크도 3.5% 떨어진 702.48달러에 장을 마감했다. 국내 메모리 반도체 공급 업체인 삼성전자와 SK하이닉스 주가도 내려갔다.
26일 삼성전자는 4.71% 하락한 18만 100원에, SK하이닉스는 6.23% 하락한 93만 3000원에 장을 마감했다.
반면, 우려와 달리 구글의 발표가 알고리즘 공개에 가깝고 실재 상용화까지 시간이 걸린다는 분석도 있다. 기술이 상용화되더라도 실제 수요 변화 사이에는 시차가 존재한다는 입장이다.
JP모건 트레이딩 데스크는 “이번 기술은 이미 공공 영역에 공개돼 있던 내용을 기반으로 한 것”이라며 “최근 매도세는 기존에 메모리 비중 축소를 고려하던 투자자들에게 명분을 제공한 측면이 있다”고 분석하며 “효율 개선이 오히려 더 많은 데이터 처리로 이어질 수 있다”며 수요 감소보다는 확대 가능성을 보였다.
배현의 인턴기자 baehyeonui@hankyung.com