네이버, 차세대 '옴니모달 AI' 공개…수능 전과목 1등급
하이퍼클로바X 네이티브 옴니·추론 모델 오픈소스화
이미지·음성 직접 이해하는 AI 에이전트 기반 제시
(서울=연합뉴스) 한상용 기자 = 네이버클라우드가 텍스트와 이미지, 음성을 처음부터 한꺼번에 이해하고 생성해 내는 차세대 AI '옴니모달'(omni-modal) 모델 2종을 내놨다.
네이버클라우드는 29일 자사의 기존 AI 플랫폼 '하이퍼클로바X' 기능을 더욱 확장한 '네이티브 옴니 모델'(옴니 모델)과 '고성능 추론 모델'(추론 모델)의 오픈소스를 공개했다고 밝혔다.
옴니 모델이 기존 '멀티모달'(multi-modal)보다 확장된 개념의 옴니모달 구조를 국내 처음 적용한 모델이라면, 추론 모델은 기존 추론형 AI에 시각과 음성, 도구 활용 역량을 더한 것으로 요약된다.
먼저 옴니 모델은 텍스트와 이미지, 오디오 등 서로 다른 형태의 데이터를 단일 모델에서 처음부터 함께 학습하는 네이티브 옴니모달 구조를 전면 적용했다.
정보 형태가 달라지더라도 하나의 의미 공간에서 맥락을 통합적으로 이해할 수 있는 기능을 갖췄다는 의미다.
이에 따라 말과 글, 시각·음성 정보가 복합적으로 오가는 현실 환경에서 활용도가 높은 차세대 AI 기술로 주목받고 있다.
네이버클라우드는 옴니모달 AI 잠재력을 극대화하는 차원에서 기존 인터넷 문서나 이미지 중심 학습을 넘어 현실 세계의 다양한 맥락을 담은 데이터 확보에 집중한다는 전략이다.
이와 함께 네이버클라우드는 고성능 추론 모델도 동시에 공개했다.
이 모델은 자체 추론형 AI에 시각 이해와 음성 대화, 도구 활용 능력까지 결합했다.
이를 통해 복합적인 입력과 요청을 이해하고 문제를 해결하는 옴니모달 에이전트 경험을 구현했다는 것이다.
특히, 이 모델은 글로벌 주요 AI 모델들과 유사한 성능 범위에 있으며 실사용과 밀접한 항목에서 경쟁력을 보였다는 게 회사 측 설명이다.
네이버클라우드에 따르면 실제 해당 모델로 올해 대학수학능력시험 문제를 풀이한 결과 국어·수학·영어·한국사 등 주요 과목에서 모두 1등급을 받았다. 영어와 한국사는 만점을 거뒀다.
네이버클라우드는 "다수의 AI 모델이 문제를 텍스트로 변환해 입력해야 하는 방식과 달리 해당 모델은 이미지 입력을 직접 이해해 문제를 해결했다는 점에서 차별화된다"고 전했다.
네이버클라우드는 이번 옴니모달 하이퍼클로바X를 기반으로 검색·커머스·콘텐츠·공공·산업 현장 등 다양한 영역에서 활용 가능한 AI 에이전트를 단계적으로 확장할 계획이다.
네이버클라우드 하이퍼스케일 AI 성낙호 기술 총괄은 "단순히 크기만 큰 모델이 아닌 실제로 쓰임새 있는 AI로 발전할 수 있다고 보고 이를 토대로 스케일업을 이어갈 계획"이라고 말했다.
gogo213@yna.co.kr
(끝)
<저작권자(c) 연합뉴스, 무단 전재-재배포, AI 학습 및 활용 금지>