이 기사는 국내 최대 해외 투자정보 플랫폼 한경 글로벌마켓에 게재된 기사입니다.
‘여러 마리의 거대한 털북숭이 매머드가 눈 덮인 초원을 밟고 다가온다.’
입력창에 이런 내용을 입력하자 매머드가 성큼성큼 걸어오는 영상(사진)이 제작됐다. ‘두 척의 해적선이 커피잔 안에서 항해하면서 서로 싸우는 모습을 사실적으로 클로즈업한 비디오’라고 써넣으니 거친 커피 물결 속에서 대결을 벌이는 검은 해적선 영상이 등장했다.
챗GPT 개발사인 오픈AI가 15일(현지시간) 새로운 인공지능(AI) 모델 ‘소라’를 내놓았다. 소라는 글로 명령하면 영상으로 변환해주는 멀티모달 AI다. 오픈AI는 소라의 영상물을 소개하며 “실제 서비스에 앞서 피드백을 얻기 위해 다수의 시각 예술가, 디자이너, 영화제작자에게 접근권을 부여했다”고 설명했다.
AI 기술이 고도화하면서 빅테크 업체 간 멀티모달 AI 경쟁이 본격화하고 있다. 멀티모달은 문서 외에 이미지와 영상, 음성 등 다양한 데이터를 분석하고 추론할 수 있는 기술을 말한다. 지금까지는 이미지와 음성 정보가 중심이었다. 하지만 최근 등장한 모델들은 정보량이 큰 영상도 척척 처리한다.
오픈AI에 따르면 소라는 최대 1분 길이의 영상을 제작할 수 있다. 기존 비디오 생성 AI가 4초 정도의 영상을 만든 것에 비해 생성 능력이 대폭 증가했다. 오픈AI 측은 “소라는 여러 캐릭터, 특정 유형의 동작, 피사체와 배경의 정확한 세부 묘사를 통해 복잡한 장면을 생성할 수 있다”고 설명했다. 다만 오픈AI는 소라가 공간적 세부 사항을 혼동할 수 있고, 특정 카메라 궤적을 따라가는 데 어려움을 겪을 수 있다고 덧붙였다.
같은 날 구글은 차세대 AI 모델 ‘제미나이 1.0 프로’의 업데이트 버전인 ‘제미나이 1.5 프로’를 공개하며 맞불을 놨다. 제미나이는 학습 규모에 따라 울트라·프로·나노로 나뉜다. 이날 공개한 제미나이 1.5 프로는 텍스트·이미지·음성·영상을 생성하는 중급 멀티모달 모델이다. 기존 모델을 개선하면서 구글의 최신 AI 모델인 ‘제미나이 1.0 울트라’와 비슷한 수준으로 성능을 높인 것이 특징이다.
구글 측은 “제미나이 1.5 프로는 1시간 분량의 동영상과 11시간 분량의 음성 파일, 3만 줄 이상의 코드, 70만 단어 이상의 텍스트에 해당하는 방대한 정보를 한 번에 처리할 수 있다”고 설명했다. 실제로 데모 영상에서 제미나이 1.5 프로는 미국 배우 버스터 키튼의 44분 분량 영화를 분석한 뒤 줄거리를 요약했다.
실리콘밸리=최진석 특파원 iskra@hankyung.com