코스피

4,797.55

  • 74.45
  • 1.58%
코스닥

951.16

  • 8.98
  • 0.95%
1/4

독자 AI 경쟁 가열…연이은 논란에 '진흙탕 싸움'

페이스북 노출 0

핀(구독)!


뉴스 듣기-

지금 보시는 뉴스를 읽어드립니다.

이동 통신망을 이용하여 음성을 재생하면 별도의 데이터 통화료가 부과될 수 있습니다.

독자 AI 경쟁 가열…연이은 논란에 '진흙탕 싸움'

주요 기사

    글자 크기 설정

    번역-

    G언어 선택

    • 한국어
    • 영어
    • 일본어
    • 중국어(간체)
    • 중국어(번체)
    • 베트남어
    독자 AI 경쟁 가열…연이은 논란에 '진흙탕 싸움'
    이번엔 숫자 처리 놓고 이견…네이버 "연산 기능 향상 목적" 해명

    (서울=연합뉴스) 오지은 기자 = 정부의 독자 인공지능(AI) 파운데이션 모델 사업 선정을 놓고 경쟁이 가열되면서 연이은 논란으로 진흙탕 싸움이 벌어지고 있다.
    이번에는 독자 AI 정예팀 중 한 곳인 네이버가 중국 알리바바 큐웬(Qwen) 모델과 동일한 숫자 처리 접근 방법을 적용했다는 주장이 일각에서 제기되면서 의견이 엇갈리고 있기 때문이다.

    12일 네이버의 독자 AI 파운데이션 모델인 하이퍼클로바 X 32B 싱크 모델의 테크 리포트에 따르면 네이버는 토큰화 과정에서 메타의 라마(LLaMA)와 알리바바의 큐웬(Qwen)의 숫자 처리 접근방법을 동일하게 적용한 것으로 알려졌다.
    먼저 토큰은 AI 모델이 텍스트를 이해할 수 있는 가장 작은 단위로, 토크나이저는 문장이나 단어를 토큰으로 쪼개는 도구를 의미한다.
    네이버클라우드는 "라마나 큐웬의 토크나이저를 가져다 쓴 것은 아니다"라고 일축했다.
    네이버클라우드는 "테크 리포트에 언급된 내용은 숫자를 한 자리씩 토큰화하는 방식을 의미한다"라며 "라마와 큐웬 방식을 적용한 이유는 코드와 수학 문제에서 숫자와 연산 기능이 향상되기 때문이다"라고 전했다.
    예컨대 숫자 '12345'를 처리할 때 1, 2, 3, 4, 5로 각 숫자를 개별 토큰으로 처리하는 게 라마와 큐웬 방식이라면 네이버클라우드가 이를 동일하게 적용했다는 의미로 볼 수도 있다.
    하지만 네이버클라우드는 "이는 업계 표준을 따른 것"이라고 해명했다.
    AI 업계에서는 네이버의 라마와 알리바바의 토큰화 방식을 적용한 것을 두고 엇갈린 의견을 내놓고 있다.
    한 AI 업계 관계자는 "AI가 문자를 이해하려면 문자를 벡터로 변환해야 하는데 토큰화에서 외국 모델 방식을 적용했다면 한국어 맥락을 국산 모델 방식만큼 반영하지 못할 수 있다"라고 말했다.
    반면 다른 관계자는 "수학이나 과학 영역에서는 자릿수 단위로 자르는 게 (추론에) 유리하기 때문에 이러한 토큰화 방식을 적용하는 경우가 있다"고 설명했다.
    한편 LG AI연구원, 업스테이지, SK텔레콤[017670], NC AI 등 여타 정예팀은 토큰화 작업에서 다른 모델 방식을 적용하지 않고 자체적인 고도화 작업을 거친 것으로 전해졌다.
    정부는 독자 AI 사업 정예팀 5곳의 AI 모델 평가를 마친 뒤 오는 15일 1차 탈락 컨소시엄을 발표할 예정이다.
    built@yna.co.kr
    (끝)


    <저작권자(c) 연합뉴스, 무단 전재-재배포, AI 학습 및 활용 금지>








    - 염색되는 샴푸, 대나무수 화장품 뜬다

    실시간 관련뉴스