"AI 추론 비용 최적화가 핵심"…AX 전문가들 제시한 해법은? [ABCD포럼]

입력 2025-10-23 18:08
수정 2025-10-23 18:10
"AI(인공지능)에 인풋을 넣으면 단어 하나하나를 만들어낸다. 한 단어씩 만들어낼 수밖에 없는 구조적 특성 때문이다. 이를 디코딩이라고 하는데 디코딩이 추론 비용의 전부이자 이를 최적화하는 것이 비용 혁신의 핵심이다."

권세중 네이버 클라우드 이사(사진)는 23일 서울 중구 한국경제신문빌딩 다산홀에서 열린 '2025 한경 디지털 ABCD 포럼'에 연사로 나서 '컴퓨팅 관점에서 풀어보는 AI 버즈워드'를 주제로 강연하면서 이 같이 말했다.

권 이사는 "요즘 AI 모델 크기는 그렇게 커지지 않고 정체된 상황인데도 추론 비용은 계속해서 늘어나고 있다"며 "토큰 입·출력이 늘어나고 있는 데다 AI 에이전트들 하나하나가 다 LLM(거대언어모델)들인데 이들이 주고받는 모든 것이 인풋과 아웃풋인 만큼 AI 비용이 상당히 늘어날 수밖에 없다"고 설명했다.

그러면서 "일각에선 비용이 내려가고 있고 앞으로 더 그럴 것이라고 하지만 소프트웨어 최적화나 여러 성능 개선, 모델 소형화 등의 결과물로 보여지는 것이다. 실제로는 GPU(그래픽처리장치) 한 대로 얼마나 많은 토큰을 만들어낼 수 있는가를 봐야 하는데, 제가 보는 관점에선 GPU 비용은 아직 크게 달라지지 않고 오히려 나빠지는 추세"라고 지적했다.

권 이사는 "본격 AI가 시작되면서 AI 에이전트들이 서로 협동하면서 결과물들을 내놓고 휴대폰이나 PC, 어디서든 AI가 돌면서 토큰을 공급하기 때문에 더 많은 컴퓨팅이 필요하고 이를 제공하는 과정에서 모두가 (비용으로) 애를 먹게 될 것"이라며 "저렴한 비용으로 많은 토큰을 만들어야 좋은 AI를 쓸 수 있는 것인데 네이버 클라우드가 저렴한 시스템을 얻기 위해 노력하는 것들, 엔비디아 GPU를 최적화를 위해 노력하는 것들이 경쟁력을 얻기 위해 진행하는 일들"이라고 강조했다.

맹윤호 스퀘어라이트 대표(이화여대 신산업융합대학 겸임교수)는 기업 입장에서 AI를 도입할 때 고려해야 할 장벽들을 짚었다. 기업들이 AI 도입 과정에서 공통적으로 꼽는 장벽 세 가지는 △느린 속도 △비싼 GPU 비용 △보안이다. 맹 대표는 "기업이 AI를 도입할 때 가장 중요한 분야가 보안인데 스마트팩토리 업종에선 외부로 나가면 안 되는 데이터가 굉장히 많다"고 했다.

그는 이 같은 장벽들을 해소할 수 있는 대안으로 엔비디아의 DGX 스파크를 제시했다. 맹 대표는 "DGX 스파크는 128GB 통합 메모리를 갖고 있는데 이 정도면 굉장히 큰 사이즈의 LLM 모델을 돌릴 수 있다"며 "예전엔 큰 모델을 올릴 수조차 없었는데 이젠 128GB짜리 DGX 스파크가 나왔기 때문에 그간 소버린 AI를 기업이 구축할 때 GPU가 굉장히 비쌌더라도 이젠 그렇지 않다는 것을 알게 되는 시점이 됐다"고 설명했다.

이날 포럼은 기업소비자간거래(B2C) 세션과 기업간거래(B2B) 세션으로 나눠 진행됐다. 한경닷컴이 주최하고 모두의연구소가 주관했으며 개인의 삶 곳곳에서 일상화되고 있는 AI에 대응하는 새로운 방향을 모색하는 데 초점을 맞췄다.

김대영 한경닷컴 기자 kdy@hankyung.com
사진=변성현 한경닷컴 기자 byun84@hankyung.com