카카오, 경량 멀티모달 언어모델·MoE 모델 오픈소스 공개

입력 2025-07-24 10:40

카카오가 경량 멀티모달 언어모델과 전문가 혼합(MoE) 모델을 국내 최초 오픈소스로 공개했다.

카카오는 24일 허깅페이스를 통해 이미지 정보 이해 및 지시 이행 능력을 갖춘 경량 멀티모달 언어모델 'Kanana-1.5-v-3b'와 MoE 언어모델 'Kanana-1.5-15.7b-a3b'를 오픈소스로 공개했다.

지난 5월 공개한 언어모델 Kanana-1.5 4종에 이어 두 달 만에 추가 모델을 오픈소스로 공개한 것이다.

Kanana-1.5-v-3b는 텍스트뿐만 아니라 이미지 정보도 처리할 수 있는 멀티모달 언어모델이다. 모델 개발의 처음부터 마지막 단계까지 카카오의 자체 기술을 바탕으로 구축하는 '프롬 스크래치' 방식으로 개발됐다.

Kanana-1.5-v-3b는 경량 모델이지만, 이미지로 표현된 한국어와 영어 문서 이해 능력이 글로벌 멀티모달 언어모델 GPT-4o와 견줄 수 있는 수준이다.

지시 이행 능력 벤치마크에서는 국내 공개된 유사한 규모의 멀티모달 언어모델 대비 128% 수준의 성능을 기록했다.

Kanana-1.5-v-3b는 이미지 및 글자 인식, 동화 및 시 창작, 국내 문화유산 및 관광지 인식, 도표 이해, 수학 문제 풀이 등 분야에서 활용할 수 있다.

카카오는 올해 하반기에 에이전트형 AI 구현에 필수적인 추론 모델의 성과도 공개할 예정이다.

카카오는 이날 MoE 구조의 언어모델을 오픈소스로 함께 공개했다.

MoE는 입력 데이터 처리 시 모든 파라미터가 연산에 참여하는 기존 모델과 달리 특정 작업에 최적화된 일부 전문가 모델만 활성화되는 방식이다. 효율적인 컴퓨팅 자원 활용과 비용 절감이 강점이다.

카카오의 MoE 모델은 고성능 AI 인프라를 저비용으로 구축하고자 하는 기업이나 연구 개발자들에게 도움을 제공할 수 있다.

특히 추론 과정에서 제한된 파라미터만 사용하는 구조적 특성 덕분에 저비용, 고효율 서비스 구현에 유리해 활용도가 높다는 설명이다.

카카오는 자체 기술 기반의 모델을 지속적으로 고도화하고, 모델 스케일업을 통해 글로벌 플래그십 수준의 초거대 모델을 개발할 계획이다.