"AI 활용해 배우 목소리 그대로…입모양까지 맞춰 더빙하죠" [긱스]

입력 2023-08-17 09:08
수정 2023-08-17 10:39
이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스에 게재된 기사입니다.

허드슨에이아이(허드슨AI)는 영화, 드라마 등의 더빙을 인공지능(AI) 기술로 풀고 있는 회사입니다. AI를 활용해 적절한 어투와 길이로 대사를 번역하고, 언어 전문가의 검증을 거친 뒤 배우 목소리를 그대로 살려 음성을 합성합니다. 영상 속 배우의 입모양을 더빙된 음성에 맞춰 합성하는 이미지 기술도 개발하고 있습니다. “번역, 더빙, 이미지 합성까지 엔드 투 엔드 서비스를 만들어 가고 있다”는 허드슨AI의 신현진 대표를 한경 긱스(Geeks)가 만났습니다.


"인공지능(AI)이 배우 목소리를 학습한 뒤 다른 언어로 음성을 구현하는 방식입니다. 이 과정에서 '가이드 성우'를 활용하죠. 가이드 성우들이 대본을 읽으면 배우 목소리를 학습한 AI가 마치 원래 배우가 말하는 것처럼 자연스럽게 바꿔줍니다. 예를 들어 나문희 배우의 한국말 목소리도 마치 직접 영어로 말하는 것처럼 더빙을 할 수 있는 겁니다."

신현진 허드슨AI 대표는 "몇몇 가이드 성우만으로도 많은 등장인물의 더빙이 가능하다”며 “인원과 비용을 크게 줄일 수 있는 방법”이라고 소개했다.

허드슨AI는 창업 1년 정도밖에 되지 않은 초기 스타트업이다. 하지만 이미 SK브로드밴드 등 여러 대기업과 협업 성과를 냈다. SK브로드밴드 B tv 영화 '정직한 후보 2'와 애니메이션 '극장판 헬로카봇 시즌4' 등의 더빙을 했다. 글로벌 기업들과도 다양한 실증 사업을 진행하고 있다.

허드슨AI는 더빙을 넘어 이미지 합성 기술도 개발 중이다. 더빙이 이뤄진 외국어 발음과 배우의 입모양을 그대로 맞추기 위한 작업이다. 신 대표는 "AI를 기반으로 영어와 한국어뿐만 아니라 스페인어, 일본어, 태국어, 베트남어 등 다양한 글로벌 언어로 더빙 작업을 할 수 있다"며 "단순히 더빙 콘텐츠 제작을 넘어 앞으로 서비스형 소프트웨어(SaaS) 형태로 솔루션을 제공해 나갈 계획"이라고 말했다.

다음은 신 대표와 일문일답.

Q. 서울대 융합과학기술대학원에서 동료들과 함께 창업했다고 하던데요.
A. 이화여대에서 교육공학을 전공한 뒤 서울대 대학원에 갔는데요. 졸업하고 제조 대기업에서 인공지능(AI) 모델링 등을 했습니다. 그런데 뭔가 흥미가 좀 떨어지더라고요. 저는 학부 때부터 계속해서 '콘텐츠, 미디어, 기술이 어떻게 하면 교육에 잘 적용될까' 이런 공부를 했어요. 제 첫 직장도 교육 쪽 회사였어요. 삼성 계열사였는데 교육 콘텐츠도 개발하고 그랬죠. 글로벌한 회사라서 한 6개국어 정도는 번역하고 더빙을 해요. 성우도 섭외하고 그러는데 사실 비용이 많이 들어갔죠. 수억원을 들여서 만드는데 이걸 한번 쓰고 버릴 거냐 하는 문제가 있었죠. 당연히 재활용을 원하는데 그 사이에 교육 내용이 변경돼요. 그러면 또 내용을 바꿔야 하는데 처음 녹음했던 분을 모셔오는 게 쉽지 않아요. 더 이상 성우를 안 하거나 한국에 없거나 이런 경우가 많거든요. 그러면 다른 성우를 모셔와서 처음부터 끝까지 재녹음을 해요. 몇 문장 바꾸는데 엄청난 고생을 하고, 비용도 쓰는 거죠. 그 부분이 제가 느낀 '페인 포인트'였어요.

Q. 허드슨AI의 솔루션은 AI가 배우 목소리를 학습해 음성을 구현하는 방식입니다. '가이드 성우'는 어떻게 구하나요?
A. 저희는 다양한 언어가 필요한데요. 스페인·인도네시아·베트남·태국어 등등을 해야 하는데 해당 언어의 성우들을 한국에서 저희가 캐스팅할 수는 없잖아요. 그래서 해외 스튜디오들와 협업하면서 그쪽 통해서 연결받곤 합니다.

Q. 영어 외에 다양한 언어가 필요한 이유는 뭔가요?
A. 한국 드라마나 영화가 해외 다양한 나라로 나가면 해당 언어로 더빙해 주는 게 필요하거든요. 영어 외에도 일본어, 스페인어 등이 중요하죠. 스페인어는 남미 지역이 자막보다는 더빙을 선호하다 보니 매우 중요합니다. 서부 유럽권에서도 더빙을 많이 선호하고요. 인도네시아·베트남·태국어 등 동남아시아 언도도 필요하고요. 태국 같은 곳은 K콘텐츠 수요가 매우 큰데 말을 다 자막화하면 화면을 가리는 경우가 종종 생겨요. 그래서 더빙을 원하는 요구가 있더라고요.


Q. 창업한 지 얼마 안 됐는데 그동안 성과를 좀 내셨나요?
A. 작년 6월에 창업했으니 이제 1년 조금 넘었네요. 저희가 올해는 SK브로드밴드 Btv 영화 2편을 함께 작업했어요. '정직한 후보 2'랑 아이들 많이 보는 애니메이션 중에 '극장판 헬로카봇' 등의 더빙을 했죠. 아직 공개할 순 없지만 작업 중인 것들도 있고요. 정직한 후보 2의 경우 등장인물이 70명이 넘었는데 주연·조연급 배우들뿐만 아니라 김용림 배우를 비롯해 특별 출연한 나문희·유준상·윤두준 배우 등도 다 저희가 실제 배우 목소리 살려서 더빙 작업을 했죠.

Q. 목소리뿐만 아니라 배우 입모양과 관련한 이미지 기술도 연구하고 계신가요?
A. 이미지 기술도 하고 있습니다. 영상 합성을 통해 외국어 발음과 입모양을 그대로 맞추기 위해 노력하죠. 더빙보다 자막을 선호하시는 분들은 성우 목소리가 배역의 목소리랑 달라서 어색하다는 반응이 있고요. 또 입모양이 일치하지 않아 몰입도를 깬다는 반응이 있죠. 한국인은 90% 정도가 자막을 선호한다는 설문조사가 있어요. 외국 배우가 연기하는데 한국 말 나오는 게 매우 어색하다고 하죠. 저희는 톰 크루즈 목소리를 더빙한다고 하면 영어뿐만 아니라 스페인으로 할 때도 발음과 입모양이 진짜 톰 크루즈인거처럼 합성할 수 있는 기술을 열심히 개발하고 있어요.

Q. 아직 초기 단계 스타트업인데요. 직원은 몇 명 정도 있나요?
A. 저희 공동 창업자가 4명이고요. 현재 총 8명 있습니다. 두 명 정도 더 충원할 예정이고요. 저희 공동 창업자들은 모두 AI를 전공한 석·박사들로 직접 자체 모델을 개발하고 있습니다. 사업개발 담당 팀원 1명을 제외하곤 리서처, 엔지니어 등 다들 개발 관련 인력이죠. 사운드 엔지니어도 있고요. 우리만의 알고리즘, 모델링 등이 중요하다고 생각해서 어느 정도에 이르기까지는 내부 개발을 해야 한다는 철학이 있습니다. 나이는 1980년생 후반부터 1990년생 초반까지로 모두 젊은 편입니다.

Q. 사운드 엔지니어는 어떤 역할을 하나요?
A. 사실 더빙 콘텐츠가 어색한 이유 중 하나는 이런 건데요. 영화는 현장에서 녹음한 현장 음성이고, 그걸 잘 믹싱하는데 더빙된 음성은 대부분 스튜디오에서 녹음된 음성이라 이게 현장감을 못 살리면 음성이 떠 있다는 느낌이 들어요. 그래서 저희가 믹싱 전문가인 로컬라이제이션 스튜디오 출신의 사운드 엔지니어를 채용한 거죠.

Q. 국내 스타트업 가운데 비슷한 AI 기반 더빙 서비스 업체도 있습니다. 차별점이 있을까요?
A. 저희는 무엇보다 다국어로 로컬라이제이션을 잘하는 회사로 자리를 잡고 싶어요. 그래서 음성만 잘하면 되는 게 아니고 고객이 원하는 체계적인 시스템 등도 매우 중요하죠. 번역도 중요하고, 믹싱도 중요하고, 영상 기술도 함께 해야 하고요.


Q. 대사 번역도 하세요?
A. 지금은 저희가 초벌 번역 모델 정도를 하고 있어요. 더빙 번역은 그냥 일반 번역이랑은 조금 다르거든요. 영상에 맞춰서 더빙을 해야 하기 때문에 배우가 말한 길이에 맞춰서 번역이 이뤄져야죠. 또 시간적인 제약이 있다 보니까 의역이 많이 돼요. 예를 들어 드라마 '이상한 변호사 우영우'에서 보면 "기러기 토마토 별똥별 우영우" 이러잖아요. 첫 글자와 마지막 글자가 같아야 하는데, 별똥별을 '슈팅 스타' 이렇게 번역하면 안 되잖아요. 그걸 '카약(kayak)' 과 같은 단어로 바꿨더라고요. 아직은 사람이 해야 하는 영역들이 있죠.

Q. 번역에 있어 또 다른 어려운 점이 있을까요?
A. 좀 전에 사례는 챗GPT 같은 걸 활용해 "앞뒤가 똑같은 영어로 이 글자 수에 맞춰 찾아줘"라는 식으로 할 수도 있겠죠. 그런데 또 이런 게 있어요. 문화적인 배경도 알아야 할 때가 있거든요. 예를 들어 만약 어떤 나라에선 테슬라가 매우 고급차로 인식이 되고, 어떤 나라에선 그냥 친환경차 정도로만 생각해요. 또 어떤 나라에서는 테슬라라는 차에 관심이 없을 수도 있고요. 그런데 영화 문맥상 테슬라가 엄청 고급차로 표현이 돼요. "야~ 테슬라X 지나간다" 하면서 감탄하는데, 이걸 테슬라에 관심도 없는 문화권에서 더빙을 한다면 뭔가 그 나라의 고급차로 의역을 해야겠죠. 저희는 길이에 맞춰 이런 초벌 번역을 제공하고, 전문 번역가들이 이를 바탕으로 검증을 하죠. 저희는 초벌 번역 관련해 특허도 출원해 놨어요.

Q. 번역과 더빙이 제대로 됐는지 검증하는 절차도 중요할 거 같습니다.
A. 각 지역별로 언어 전문가들과 협업 관계를 탄탄히 만드는 게 중요하죠. 신뢰를 쌓아가면서 관련 언어 전문가 풀을 구축하고 있어요.

Q. 이런 더빙 기술이 영화 드라마뿐만 아니라 다른 분야에서도 활용될 수 있을까요?
A. 엔터테인먼트 회사, 연예기획사들 같은 곳에서 수요가 있어요. 글로벌 팬덤을 위한 다양한 영상을 많이 내놓잖아요. 예를 들어 BTS가 태국어로 말한다든지 할 수 있겠죠. 또 게임에서도 활용되기도 해요. 블랙핑크가 나오는 게임이 나왔다고 하면, 목소리도 매우 중요하죠. 블랙핑크 목소리는 일종의 지식재산권(IP) 같은 거라고도 볼 수 있어요. 게임은 자막을 읽으면서 할 수 있는 게 아니라 현지어로 서비스하는 게 필요하죠. 가상인간 목소리 같은 것도 더빙할 수 있고요.

Q. 각 나라별로 자막과 더빙을 각각 어느 정도 선호하나요?
A. 일단 서부 유럽권, 특히 독일 프랑스 지역은 더빙을 많이 선호해요. 자국어, 자국 콘텐츠를 보호하기 위한 이유도 있고요. 그래서 더빙을 얼마큼 제작해야 한다는 할당제 같은 것도 있고, 자국민들이 더빙에 익숙해지죠. 남미 쪽은 읽는 걸 싫어하는 경향이 강해 더빙이 거의 필수예요. 더빙 버전 없으면 아예 콘텐츠 수출이 좀 어려운 지역이죠. 북미는 거의 반반인데 워낙 콘텐츠 수요를 많이 하는 곳이니 웬만하면 더빙 버전 많이 만들죠.


Q. 사업 초기인데 투자도 좀 받으셨나요?
A. 저희가 작년 말에 시드(초기) 투자로 7억원 정도를 받았어요. 와이앤아처, 대경기술지주, 아이디어브릿지 등이 투자에 참여해 주셨죠. 저희가 빠르게 사업화 하고, 인프라 투자라든지 여러 가지 부분에서 안정화에 필요한 자금들이 있어서 프리A 투자 유치를 추진 중입니다.

Q. SK텔레콤의 지원도 좀 받으셨다고 들었습니다.
A. 저희가 창업 2개월 만에 SKT 트루이노베이션이라고 하는 액셀러레이팅 프로그램에 선정됐어요. 이곳 을지로에 무상으로 사무실 지원해 주시고, 사업 운영에도 많은 도움을 주셨습니다. 여러 가지 조언도 주시고, 언론 홍보 등과 관련한 강연이나 컨설팅 등도 해주셨죠. 협업 연계도 해주시고요.

Q. 원래 창업에 관심이 있으셨어요?
A. 그냥 늘 만드는 걸 좋아했어요. 과거 회사에 있을 때도 프로덕트 오너나 매니지먼트 역할을 많이 했죠. 뭔가를 새로 시작하고 일을 벌리고 하는 거는 제가 소질이 있었던 것 같아요.

Q. 허드슨AI라는 회사명은 어떤 의미를 갖고 있나요?
A. 뉴욕의 허드슨강에서 이름을 따왔어요. 뉴욕이라는 도시는 전 세계 다양한 인종들이 모여 사는 곳이고, 글로벌한 곳이잖아요. 세계에서 오가는 곳이고요. 우리 솔루션도 그렇게 다양한 문화와 언어를 연결해주는 역할을 하자는 의미를 담았죠. 저희 직원들끼리는 회사가 크게 성공해서 허드슨강 주변에 멋진 저택 하나씩 사자는 의미라고 농담도 하죠.

안정락 기자 jran@hankyung.com