다음카카오는 국내 최초 음성 합성 오픈 API '뉴톤 톡'의 낭독체 음성을 업그레이드하고 대화체를 추가해 제공한다고 밝혔습니다.
뉴톤 톡은 다음카카오가 지난 6월 기본 낭독체를 탑재해 첫 선을 보인 음성 합성 엔진으로, 입력된 문장을 음성으로 변환해 줍니다.
자체 개발한 한국어 운율 모델을 이용해서 사람의 발성을 재현하고 다음 검색으로 축적된 데이터를 활용해 사전에 등록되지 않은 신조어나 특수문자 포함 문장도 정확히 이해하고 음성으로 전환합니다.
뉴톤 톡의 새로운 낭독체는 사람이 읽어주듯 음성이 자연스럽다는 게 특징입니다.
어떠한 문장 조합에도 유연하게 대응할 수 있고 목소리의 여러 주파수별 파형을 조합하는 방식으로 바꿔서 딱딱한 기계음이 만들어질 가능성을 최소화했습니다.
일상적인 대화체 음성의 표현도 가능해졌습니다.
예를 들어 '안녕'이라는 단어가 문장 앞 부분에 있을 경우 끝 음을 올리고 문장 중간에 포함될 경우 앞뒤 단어와의 연결에 따라 끝 음을 내리거나 동일 음조로 처리하는 식입니다.
구동욱 다음카카오 음성처리파트장은 "뉴스나 책 구절 등의 장문 낭독을 대신하거나 모바일 메시지를 대화체 음성으로 변환하고, 시각 장애인을 위한 생활형 서비스를 개발하는 등 다양한 영역에서 뉴톤 톡의 기능이 활용될 수 있다"며 "뉴톤 톡의 지속적인 강화와 사용 확대가 모바일 환경에서 음성 기술 영역 전반의 발전을 이끌게 될 것"이라고 말했습니다.
뉴톤 톡은 한 번에 최대 30초 분량의 음성을 합성하며 현재 남녀 화자 각 하나씩의 낭독·대화 음성으로 모두 4개의 음색을 사용할 수 있습니다.
뉴톤 톡 API는 누구나 다음 개발자 네트워크(http://dna.daum.net/affiliate/newtone)에서 제휴 신청을 하면 발급받을 수 있으며 하루 만 번까지 자유롭게 사용 가능합니다.