애플 말 없이 의사소통 가능한 기술 확보
29일(현지시간) 파이낸셜타임스(FT) 등 복수의 외신은 애플이 이스라엘 비언어 AI 스타트업 Q.AI를 약 20억달러에 인수했다고 보도했다. Q.AI는 사용자가 직접 말을 하지 않아도 얼굴 표정, 입 주변의 미세 변화, 속삭임 같은 신호를 인식해 의도와 발화를 감지하는 기술을 개발한다. 2022년 이스라엘 텔아비브에서 설립됐으며 창업진 일부는 과거 애플이 인수한 이스라엘 3D 센싱 기업 프라임센스 출신이다. 프라임센스의 기술은 아이폰 페이스 ID의 핵심 기반으로도 꼽힌다.
애플은 Q.AI 기술을 어떤 방식으로 활용할지 구체적으로 밝히지 않았다. 다만 업계에서는 자사 음성 비서 시리가 탑재된 에어팟, 에어팟 맥스, 비전프로 등 음향 기기와 웨어러블 제품군에 적용될 것으로 내다본다. 애플은 이미 비전프로에서 시선과 손 제스처를 입력 수단으로 활용하고 있고, 에어팟프로3에서는 실시간 번역 기능도 지원하고 있다.
이번 인수는 ‘웨어러블 AI 기기’를 둘러싼 경쟁에서 메타·구글·오픈AI와의 격차를 좁히려는 행보라는 해석이 나온다. 메타는 레이밴과 협업해 스마트 글래스를 출시했고, 착용자가 메타 AI와 대화할 수 있도록 했다. 구글과 스냅도 올해 안에 스마트 글래스 출시를 준비 중인 것으로 전해진다.
애플은 최근 새로운 버전의 시리 출시를 늦추며 음성 AI 시장에서 뒤쳐지는 것 아니냐는 우려를 낳기도 했다. 시리는 구글 제미나이나 오픈AI의 챗GPT에 비해 성능이 뒤처진다는 평가를 받아왔다. 이에 애플은 지난 12일 구글과 AI 협력을 맺고, 올해 제미나이 기반 시리를 내놓겠다는 계획을 내놨다.
인간의 대화 반응 속도 '0.2초'를 향한 싸움
애플의 Q.AI 인수는 ‘정말 사람처럼 대화하는 AI’를 구현하기 위한 글로벌 빅테크 간 기술 경쟁이 치열해지고 있음을 보여준다. 그간 공개된 음성AI는 통상 사람이 상대 말을 듣고 발화하기 까지 걸리는 0.2초 보다 훨씬 오래 걸린다.우선 사람은 상대가 말을 끝날 때까지 항상 기다리지 않는다. 다음 의도를 예측해 표정이나 몸짓으로 먼저 신호를 보낸다. 미국 매사추세츠공대(MIT) 연구팀에서 창업한 'Alterego'는 AI가 사용자의 얼굴의 미세한 움직임을 인식하는 웨어러블 기기를 개발한다. 예컨대 사람의 입 모양만 보고도 인식해 AI가 답한다.

엔비디아는 매끄러운 대화가 가능한 AI를 선보였다. 지난 15일 발표한 음성 인식 AI ‘페르소나플렉스-7B-v1'이다. 듣기와 말하기를 동시에 수행하는 전이중(Full Duplex) 기술을 기반으로 한다. 사용자가 말을 마칠 때까지 기다렸다가 반응하는 반이중(Half-duplex) 방식보다 한 단계 진화한 것이다. 엔비디아는 AI가 대화 중 언제 멈추고, 끼어들지 그리고 언제 '오' 같은 감탄 표현도 넣을지까지 학습하도록 설계했다고 설명한다. 실제 엔비디아 블로그에 들어가 시연 영상을 보니 AI와 사용자 간 대화는 일상의 대화처럼 매끄러웠다.

기존 음성 AI는 인식 단계가 최소 3단계 이상으로 분절돼 있었다. 스피치투텍스트(STT)-> 텍스트 추론-> 텍스트투스피치(TTS)로 매커니즘이 분리돼 있고, 각 단계를 서로 다른 모델로 순차 처리했다. 이 경우 단계마다 지연율이 누적되고, 변환 과정에서 인식 품질이 떨어진다.
이외에도 세부적으로 들어가면 지연을 좌우하는 변수는 여러 가지로 나뉜다. 음성AI 기업 피코보이스.AI에 따르면, 변수 중 하나는 '단어 방출 지연'이 있다. 이는 한 단어가 발화된 시점부터 STT 엔진이 해당 단어를 인식하고 다음 단계로 보내는 데까지 걸리는 평균 시간을 나타내는 지표다. 낮을수록 AI의 반응 속도가 빨라진다. 회사에 따르면 지난해 기준 아마존의 평균 단어 방출 지연율은 0.92초 수준으로 나왔다.

네트워크 지연율도 무시하지 못한다. 사용자 기기에서 클라우드 서버로 음성이 전송되고 응답까지 걸리는 왕복시간이다. 지리적 거리, 네트워크 혼잡율에 따라 다르지만 빠르면 0.02초에서 최대 수 초도 걸릴 수 있다. 여기에 AI가 사람의 말이 끝났는지 판단하는 시간까지 더하면 2초 이상을 넘어간다.
이에 업계에서는 세분화된 단계를 뛰어넘어 일종의 '스트리밍' 방식으로 한번에 처리하는 기술을 내놓고 있다. 지난해 구글은 제미나이를 업데이트한 '제미나이 2.5 플래시 네이티브 오디오'를 공개했다. 여러 단계를 거치는 대신 기존 음성을 단일 저지연 모델에서 처리한다.
또한 사람처럼 대화하려면 감정을 이해해야 한다. 같은 “아 그래?”도 화가 난 톤과 정말 궁금해서 묻는 톤이 완전히 다르듯, 음성에는 텍스트로 환원하기 어려운 정서 정보가 담겨 있다. 이와 관련해 구글 딥마인드는 지난 22일 음성 AI 스타트업 Hume AI 대표와 핵심 엔지니어들을 영입해 제미나이 음성 기능 고도화에 투입한 것으로 알려졌다. Hume AI는 사람의 음성과 표정을 인식해 감정을 읽을 수 있는 모델을 만든다.
최영총 기자 youngchoi@hankyung.com