[인터뷰] "영상은 오픈AI도 못 쫓아오죠"…AI기반모델 만든 트웰브랩스
국내 스타트업 유일 AI기반 모델 보유…"세계 유일 영상언어모델 개발"
(서울=연합뉴스) 조성미 기자 = 인공지능(AI) 기술 바람이 불면서 AI 서비스가 우후죽순처럼 쏟아지고 있지만 AI를 구동할 자체 기술, 즉 기반 모델(파운데이션 모델)을 가진 기업은 세계적으로도 손에 꼽힌다.
국내에선 네이버, 카카오[035720], SK텔레콤[017670], KT[030200], LG AI연구원 5개 대기업만 자체 초거대 AI 모델을 개발하고 있고, 스타트업 가운데 기반 모델을 보유한 곳은 영상 검색 AI 모델을 만든 트웰브랩스가 유일하다.
트웰브랩스는 오픈AI의 GPT 시리즈, 구글의 바드, 미드저니 등 굴지의 AI 기반 모델이 집중하고 있는 텍스트, 이미지 분야가 아닌 영상을 다룬다는 점에서 세계적으로도 독보적인 위치를 선점하고 있다고 3일 밝혔다.
이 회사는 지난해에 이어 올해 CB인사이트의 '세계 100대 AI 기업'에 오픈AI, 허깅페이스 등과 함께 선정되기도 했다. 우리나라 기업 중에 2년 연속 선정된 곳은 트웰브랩스가 유일하다.
트웰브랩스는 챗GPT 열풍이 불기 전 오픈AI의 GPT-3, 달리(DALL-E) 등 모델이 모습을 드러낼 당시 이들이 주력하는 텍스트, 이미지는 빅테크가 대규모 자본만 동원하면 금세 따라잡을 수 있는 분야인 데 반해 영상은 작은 스타트업이 성공할 수 있는 기술적 여지가 남아있다고 보고 영상 이해 기술에 뛰어들었다고 설명했다.
다음은 지난 달 28일 서울 용산구 이태원동 트웰브랩스 본사에서 이승준 최고기술책임자(CTO)와 서민준 최고과학자(치프 사이언티스트) 겸 한국과학기술원(KAIST) 인공지능대학원 교수와 일문일답.
-- 영상 검색에서 기반 모델을 개발했다는 것의 의미가 무엇인가.
▲ (서민준) 영상은 이미지 여러 개가 이어진 콘텐츠이다 보니 데이터도 매우 크고 복합적으로 신경 써야 하는 부분이 텍스트나 이미지보다 훨씬 많다. 한마디로 텍스트, 이미지만 있는 데이터를 다룰 때보다 난도가 높다고 할 수 있다. 그래서 영상을 다루는 기술적 장벽을 넘을 수 있는 회사가 매우 적은 상황이다. 여기서 한 단계 더 나아가 단순한 검색을 넘어서 영상과 상호작용, 즉 AI 모델에 구체적인 질문을 하고 답을 얻을 수 있는 서비스를 개발한 곳은 트웰브랩스 외에는 없다. 기존에는 영상 속 이미지나 음성에 '사람', '사물' 등 태그를 붙이고 이를 기반으로 검색했지만, 제한적인 단어로 구성될 수밖에 없는 태그가 붙지 않은 부분은 검색할 수 없다. '마링고'라고 이름 붙인 우리의 영상 이해 기반 모델은 영상을 자연어로 처리한 언어모델이 영상 처리 모델과 소통하는 비디오 언어 모델(VLM) 기술이라고 할 수 있다.
-- 이 분야에서 다른 AI 기업들을 따돌릴 기술적 해자는 어떻게 마련하는가.
▲ (이승준) 2020년 오픈AI의 GPT-3가 출시된 이후 일반인들의 반응은 별로 없었다. 오픈AI는 2년 반 뒤 빠르게 챗GPT를 내놓아 이용자들로부터 피드백을 받고 데이터를 수집해 GPT4까지 오게 됐다. 우리도 비슷한 전략을 취하고 있다. AI 모델이 완벽하지 않아도 빠르게 시장에 내보내 기업 등 이용자와 상호작용하는 데이터를 파악하고 최상의 영상 언어 모델을 만들려는 것이다. 오픈AI가 텍스트 쪽에서 AI 모델의 깃발을 꽂고 업계가 따라가는 모습이라면 우리는 영상 이해 쪽에서 깃발을 꽂으려 한다.
-- 영상 검색 AI 모델 출시 계획과 기술적 포부는.
▲ (이승준) 베타 서비스는 지난 4월 출시해 전 세계에서 현재 1만명 정도가 테스트하고 있다. 아직 공개할 수 없지만 미국과 유럽의 큰 기업들이 파일럿을 진행하고 있다. 하반기에 베타 테스트를 바탕으로 성능을 개선한 결과를 공개할 것이다. 영상 검색뿐 아니라 영상 언어와 관련된 응용프로그램 인터페이스(API) 제품도 내놓을 계획이다. API는 개발자나 기업을 대상으로 하는 기업 대 기업(B2B) 분야인데, 기업 대 소비자(B2C) 분야에서 방향이 무엇인가에 대한 고민도 할 것 같다. 최근 어도비로부터 프리미어 프로에서 우리의 모델을 익스텐션(확장형)으로 쓸 수 있겠느냐는 문의도 받았다. 현재 영상-언어 모델의 기술적 성숙도는 언어모델의 성숙도와 비교하자면 GPT-2와 3 사이로 평가된다. 기술 개발 속도로 봤을 때 GPT-3 순간이 영상-언어 쪽에서도 곧 올 것으로 예상되는데 후발주자가 아닌 선두 주자로서 기술 발전을 앞당기는 것이 목표다.
-- 기술 자문을 하다 최고과학자로 합류하게 된 계기는.
▲ (서민준) 빅테크가 할 법한 과업을 스타트업이 하는데, 어떤 믿음이 있었느냐는 질문을 받는다. 기반 모델 개발이 자본 집약적인 문제인데 스타트업이 어떻게 대기업과 경쟁하느냐고 질문할 수 있다. 하지만, 자본만으로 하는 경쟁이기보다는 자본, 팀, 문화 등 모든 요소를 갖춰야 하는 종합 예술이라고 생각한다. 요소 어느 하나가 빠져도 안 되지만 어느 하나만 많다고 되는 것이 아니기 때문이다. 각 요소를 다 갖춘 팀이라고 생각했다. 특히 지난해 말 상황을 떠올려 보면 대부분의 기반 모델 개발팀이 미국에 있고, 이미지나 텍스트 쪽은 이미 많이 정복된 상황이었다. 다음 선구자는 감각과 언어 등 여러 정보를 동시에 처리하는 멀티모달 신경망 기반의 영상 언어 모델이 될 것이라고 생각했고, 한국에서도 선도적인 기반 기술을 만들어야 한다는 공감대를 이뤄 합류하게 됐다. 기반 모델은 수많은 애플리케이션 서비스의 기초가 되는 중요한 기술이다. 진정한 지능은 언어적인 지능이 아니라 시각적인 지능까지 결합돼야 한다. 현재 이미지 기반 AI 모델들이 있지만 이들로는 한계가 있다. 결국 시간의 흐름과 맥락, 그리고 음성 등 다양한 정보 유형을 AI가 이해해야 한다. 영상은 텍스트의 아류가 아니다. 텍스트가 기본이고 다음은 이미지, 그리고 영상이다. AI가 영상을 이해하는 것은 인간의 지능에 가까워지기 위한 필수 요소다. 오픈AI가 텍스트 분야를, 스테이블 디퓨전이 이미지 분야를 혁신하며 규모를 키웠다면 다음은 영상 분야를 혁신할 수 있는 기업이 나와야 한다.
-- '딥러닝의 대모'라 불리는 페이페이 리 미국 스탠퍼드대 교수가 이 회사에 투자하고 자문한다. 그의 발언을 소개한다면.
▲ (이승준) 페이페이 리 교수는 한국에 우수한 AI 연구자가 많고 좋은 논문이 많이 나오는 만큼 대한민국이 AI를 정말 잘 할 수 있는 나라라고 말했다. 트웰브랩스가 한국의 우수한 연구자들이 모이는 허브가 됐으면 좋겠다고도 했다. 우수한 연구자가 최고의 역량을 발휘할 수 있는 좋은 환경과 문화를 구축하려고 노력할 것이다.
csm@yna.co.kr
(끝)
<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>