
인간처럼 행동하지만 실제로는 인간이 아닌 로봇을 봤을 때 느껴지는 기묘한 불안감의 원인으로 '입술'이 지목됐다.
19일(현지시간) 정보기술(IT) 매체 씨넷에 따르면 미국 콜럼비아대는 최근 로봇 얼굴의 입 모양을 음성과 정밀하게 동기화하는 방식으로 이른바 '불쾌한 골짜기'를 줄일 수 있는 방안을 제시했다. 연구에 참여한 호드 립슨 컬럼비아대 공대 교수는 "로봇이 섬뜩하게 느껴지는 큰 이유는 사람이 말할 때처럼 입술이 움직이지 않기 때문"이라며 "로보틱스에서 그동안 소홀히 다뤄진 문제를 풀려 한다"고 말했다.
이번 연구가 주목받는 이유는 휴머노이드 로봇 열풍이 불고 있어서다. 이달 초 열린 세계 최대 가전·IT 전시회 'CES 2026' 현장에선 사람과 상호작용을 전제로 한 로봇들이 대거 등장했다. 보스턴다이내믹스의 최신 아틀라스과 가사용 홈로봇 등 대표적인 휴머노이드들이 전시장을 채웠다. 올해는 소비자용 로보틱스의 분기점이 될 수 있다는 관측에 힘이 실리고 있다.

얼굴과 합성 피부를 갖춘 휴머노이드도 전면에 섰다. 사람처럼 보이는 로봇을 내세운 리얼보틱스는 안내 부스 업무나 정서적 위로 같은 활용 시나리오를 제시했고 로벤스는 친밀한 대화를 '기억하는 AI'를 강조한 관계형 로봇을 선보였다.
문제는 '작은 어긋남'이 신뢰를 무너뜨린다는 점이다. 음성과 입술 사이에서 찰나의 순간 포착되는 불일치만으로도 휴머노이드에 대한 인상이 엇갈린다는 것.
연구팀은 이를 해결하기 위해 '언어의 의미'가 아니라 '소리' 자체에 주목했다. 먼저 실리콘 피부로 만든 휴머노이드 로봇 얼굴을 제작한 다음 자석 커넥터를 활용해 복잡한 입술 움직임을 구현했다. 이 얼굴은 24개 자음과 16개 모음을 표현할 수 있고 말뿐 아니라 노래도 가능하도록 설계됐다.
핵심은 학습 파이프라인이다. 팀은 입술 움직임의 시각 데이터를 수집해 AI 모델을 훈련시켰다. 이를 바탕으로 기준점을 생성했다. 이어 '페이셜 액션 트랜스포머'가 모터 명령을 실제 입 모션으로 변환해 오디오와 동기화하도록 했다. 이 프레임워크를 적용한 로봇 얼굴 '에모(Emo)'는 여러 언어로 자연스럽게 말할 수 있다. 훈련에 포함되지 않은 프랑스어·중국어·아랍어 등에서도 그대로 작동했다.
립슨 교수는 "오디오에서 바로 입 모양으로 가는 모델을 학습해 언어별 문제를 피했다"며 "여기엔 '언어'라는 개념이 없다"고 설명했다.
그러면서 "사람과 상호작용해야 하는 어떤 휴머노이드에도 립싱크 연구가 유용할 것"이라고 내다봤다.
립슨 교수는 또 로봇이 사람과 구별되지 않을 미래를 상정하면서 설계를 통해 '사람이 아니라 로봇'이란 점을 분명하게 나타낼 수 있는 장치가 필요하다고 강조했다. 예컨대 피부를 파란색으로 규정해 인간으로 오인되지 않도록 방지하는 식이다. 휴머노이드 상용화 경쟁의 본질은 더 사람처럼 보이게 만드는 기술뿐 아니라 사람과 함께 살아도 불편하지 않은 '사회적 설계'를 고려해야 한다는 주장이다.
박수빈 한경닷컴 기자 waterbean@hankyung.com
