이경무 서울대 석좌교수 "시각정보 읽어야 거대AI 완성"
"LG 초거대AI '엑사원', 챗GPT 같은 언어모델이 갖지못한 장점 보유"
(밴쿠버=연합뉴스) 조승한 기자·한국과학기자협회 공동취재단 = "사람이 인지 활동을 할 때 뇌가 외부로부터 받는 정보 중 90%가 시각입니다. 결국 시각 정보를 해석하고 인지하지 못하면 진정한 AI를 만들기가 어렵다는 뜻입니다."
이경무 서울대학교 전기정보공학부 석좌교수는 캐나다 밴쿠버 컨벤션센터에서 열리는 '국제 컴퓨터 비전 및 패턴 인식 학회(CVPR) 2023' 개막을 이틀 앞둔 18일(현지시간) 행사에 동행한 기자들과 인터뷰에서 이미지를 판별하고 설명하는 '이미지 캡셔닝' AI의 중요성에 대해 이같이 설명했다.
이 교수는 CVPR를 주최하는 국제전기전자공학회(IEEE) 석학회원으로 시각지능 분야 세계적 석학으로 꼽힌다. 지난해 서울대가 국제적 업적이 탁월한 교수를 대상으로 임명하는 석좌교수에 꼽혔다.
서울대 AI대학원 전임교수이기도 한 그는 지난해부터는 LG AI연구원과 함께 서울대에 공동연구센터를 설립하고 LG의 초거대 AI '엑사원'을 활용한 이미지 캡셔닝 기술 개발에 주력하고 있다.
그는 "엑사원은 다른 빅테크들이 언어에 중점을 둔 것과 달리 시각 정보에 특화돼 있어 챗GPT 같은 AI가 갖지 못한 장점을 갖고 있다"며 영상을 설명하는 캡셔닝 기술 등 도전적 문제들을 풀고 있다고 설명했다.
이 교수는 "시각적 정보를 통해 어떤 물체가 있는지 포함해 물체의 상태, 물체 간 관계성, 예측 등을 모두 추론할 수 있다"며 "결국 로봇이 사람처럼 활동하고 해석하려면 시각 정보를 사람이 인지할 수 있는 언어로 표현할 수 있느냐가 가장 중요한 문제"라고 말했다.
이날 LG가 CVPR에서 주최한 이미지 캡셔닝 AI 워크숍에도 참여한 그는 "경쟁이 치열한 CVPR에서 특화 분야 워크숍을 여는 건 분야를 이끌고 있다는 걸 인정받는 것"이라고 평가하며 학계에도 시각 AI에 대한 관심이 커지고 있다고 설명했다.
이처럼 AI 특화 분야를 적극적으로 연구하면 초거대 AI 시대 경쟁 환경에서 살아남는 전략이 될 수 있다고 이 교수는 강조했다.
그는 "챗GPT처럼 엄청난 자원을 투입한 AI도 미국 내에서 구글이나 마이크로소프트 등과 경쟁하기 쉽지 않다는 관측이 있을 정도"라며 "범용 AI 분야는 그만큼 자원을 투입하고도 이점이 불확실한 상황인 만큼 특화 전략을 펼칠 필요가 있다는 것"이라고 설명했다.
특히 이 교수는 이런 전략을 거쳐 장기적으로 시각과 언어 등 여러 정보를 동시에 처리하는 '멀티모달 AI'와 '임베디드(내장형) AI 기술' 등으로 연구를 확대할 필요가 있다고 내다봤다.
그는 "다양한 정보로 판단을 내리는 종합적 AI를 개발하려면 우리 뇌처럼 하나의 시스템이 모든 걸 다 할 수 있도록 하는 '멀티모달 레이어' 기술이 추후 핵심이 될 것"이라며 "또 로봇과 같은 실제 물리적 시스템에서 AI가 활용돼야 하는 만큼 시스템에서 바로 AI를 활용할 수 있도록 내재해야 실용적인 기술이 될 것"이라고 전망했다.
shjo@yna.co.kr
(끝)
<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>
뉴스