독자 AI 경쟁 가열…연이은 논란에 '진흙탕 싸움'

와우퀵 앱 - 프리미엄 투자정보

핵심만 담은 실전 투자 정보, 와우퀵! 지금 바로 앱 다운로드하고, 더 편리하게 만나보세요.

입력 2026-01-12 18:27

독자 AI 경쟁 가열…연이은 논란에 '진흙탕 싸움'
이번엔 숫자 처리 놓고 이견…네이버 "연산 기능 향상 목적" 해명

(서울=연합뉴스) 오지은 기자 = 정부의 독자 인공지능(AI) 파운데이션 모델 사업 선정을 놓고 경쟁이 가열되면서 연이은 논란으로 진흙탕 싸움이 벌어지고 있다.
이번에는 독자 AI 정예팀 중 한 곳인 네이버가 중국 알리바바 큐웬(Qwen) 모델과 동일한 숫자 처리 접근 방법을 적용했다는 주장이 일각에서 제기되면서 의견이 엇갈리고 있기 때문이다.

12일 네이버의 독자 AI 파운데이션 모델인 하이퍼클로바 X 32B 싱크 모델의 테크 리포트에 따르면 네이버는 토큰화 과정에서 메타의 라마(LLaMA)와 알리바바의 큐웬(Qwen)의 숫자 처리 접근방법을 동일하게 적용한 것으로 알려졌다.
먼저 토큰은 AI 모델이 텍스트를 이해할 수 있는 가장 작은 단위로, 토크나이저는 문장이나 단어를 토큰으로 쪼개는 도구를 의미한다.
네이버클라우드는 "라마나 큐웬의 토크나이저를 가져다 쓴 것은 아니다"라고 일축했다.
네이버클라우드는 "테크 리포트에 언급된 내용은 숫자를 한 자리씩 토큰화하는 방식을 의미한다"라며 "라마와 큐웬 방식을 적용한 이유는 코드와 수학 문제에서 숫자와 연산 기능이 향상되기 때문이다"라고 전했다.
예컨대 숫자 '12345'를 처리할 때 1, 2, 3, 4, 5로 각 숫자를 개별 토큰으로 처리하는 게 라마와 큐웬 방식이라면 네이버클라우드가 이를 동일하게 적용했다는 의미로 볼 수도 있다.
하지만 네이버클라우드는 "이는 업계 표준을 따른 것"이라고 해명했다.
AI 업계에서는 네이버의 라마와 알리바바의 토큰화 방식을 적용한 것을 두고 엇갈린 의견을 내놓고 있다.
한 AI 업계 관계자는 "AI가 문자를 이해하려면 문자를 벡터로 변환해야 하는데 토큰화에서 외국 모델 방식을 적용했다면 한국어 맥락을 국산 모델 방식만큼 반영하지 못할 수 있다"라고 말했다.
반면 다른 관계자는 "수학이나 과학 영역에서는 자릿수 단위로 자르는 게 (추론에) 유리하기 때문에 이러한 토큰화 방식을 적용하는 경우가 있다"고 설명했다.
한편 LG AI연구원, 업스테이지, SK텔레콤[017670], NC AI 등 여타 정예팀은 토큰화 작업에서 다른 모델 방식을 적용하지 않고 자체적인 고도화 작업을 거친 것으로 전해졌다.
정부는 독자 AI 사업 정예팀 5곳의 AI 모델 평가를 마친 뒤 오는 15일 1차 탈락 컨소시엄을 발표할 예정이다.
built@yna.co.kr
(끝)

<저작권자(c) 연합뉴스, 무단 전재-재배포, AI 학습 및 활용 금지>

독자 AI 방식 와우넷 오늘장전략 와우퀵 앱 실전주식 투자정보. onAir, Editor's Pick

싫어요

후속기사 원해요

와우퀵N 구독신청 한경지면 구독신청

실시간 관련뉴스