코스피

4,090.59

  • 76.57
  • 1.84%
코스닥

938.83

  • 1.49
  • 0.16%
1/8

"한국적 맥락 이해 최적화"…카카오, 멀티모달 2종 성능 공개

페이스북 노출 0

핀(구독)!


뉴스 듣기-

지금 보시는 뉴스를 읽어드립니다.

이동 통신망을 이용하여 음성을 재생하면 별도의 데이터 통화료가 부과될 수 있습니다.

"한국적 맥락 이해 최적화"…카카오, 멀티모달 2종 성능 공개

주요 기사

    글자 크기 설정

    번역-

    G언어 선택

    • 한국어
    • 영어
    • 일본어
    • 중국어(간체)
    • 중국어(번체)
    • 베트남어
    "한국적 맥락 이해 최적화"…카카오, 멀티모달 2종 성능 공개
    텍스트·음성·이미지 동시 이해·답변…"지시 이행력 개선"


    (서울=연합뉴스) 한상용 기자 = 카카오[035720]가 사람처럼 보고 듣고 말하면서 한국어는 물론 한국 문화를 이해하는 데 초점을 둔 최신 멀티모달(Multinodal) AI 기술 연구 성과를 공개했다.
    카카오는 12일 테크블로그를 통해 한국적 맥락 이해에 최적화된 통합 멀티모달 언어모델 '카나나(Kanana)-o'와 멀티모달 임베딩 모델 '카나나-v-임베딩'(Kanana-v-embedding)' 개발 과정과 성능을 발표했다.
    멀티모달은 텍스트와 음성, 이미지 등 다양한 형태의 정보를 동시에 이해하고 처리·답변할 수 있는 능력이나 기술을 말한다.
    먼저 '카나나-o'는 글로벌 모델과 비교해 한국어 맥락 이해에서 압도적 성능을 보유해 사람처럼 자연스럽고 풍부한 표현력을 갖췄다는 게 카카오 설명이다. 지난 5월 처음 공개된 뒤 이번에 지시 이행 능력이 개선됐다.
    카카오는 기존 멀티모달 모델들이 텍스트에는 강점을 보이지만 음성으로 대화 땐 답변이 다소 단순해지고 추론 능력이 떨어진다는 점에 주목했다.
    이에 카카오는 카나나-o 지시 이행을 고도화해 사용자의 숨은 의도와 복잡한 요구사항까지 파악할 수 있도록 개선했다고 전했다.
    이와 함께 단순 질의응답을 넘어 요약, 감정·의도 해석, 오류 수정, 형식 변환, 번역 등 다양한 과업을 수행할 수 있게 성능을 끌어올렸다고 부연했다.
    또한 고품질 음성 데이터와 직접 선호 최적화 기술을 적용해 억양과 감정, 호흡 등을 정교하게 학습시켰다.
    카카오는 벤치마크(성능 검증) 평가 결과 카나나-o가 영어 음성 성능에서 GPT-4o와 유사한 수준을, 한국어 음성 인식·합성, 감정 인식 능력에서는 월등히 높은 수준을 기록했다고 밝혔다.



    이번에 함께 공개된 카나나-v-임베딩은 이미지 기반 검색의 핵심 기술로, 텍스트와 이미지를 동시에 이해해 처리할 수 있는 한국형 멀티모달 모델이다.
    실제 서비스 적용을 목표로 개발된 이 모델은 한국어와 한국 문화에 대한 이해도가 높아 '경복궁', '붕어빵' 같은 고유명사의 이미지도 찾아준다.
    현재 이 모델은 카카오 내부에서 광고 소재의 유사도를 분석·심사하는 시스템에 적용 중이다.
    김병학 카카오 카나나 성과리더는 "카나나를 단순 정보 나열 수준을 넘어 사용자의 감정을 이해하며 친숙하고 자연스럽게 대화하는 AI가 될 수 있게 하겠다"고 말했다.
    gogo213@yna.co.kr
    (끝)

    <저작권자(c) 연합뉴스, 무단 전재-재배포, AI 학습 및 활용 금지>





    - 염색되는 샴푸, 대나무수 화장품 뜬다

    실시간 관련뉴스