사진 등 이미지를 입력하면 자연어 문장으로 설명하고 핵심 키워드까지 추출하는 이미지 검색 분야 생성형 인공지능(AI) 기술이 나왔다. LG AI연구원이 내놓은 첫 생성형 AI 상용화 서비스인 ‘캡셔닝(Captioning) AI’다.
LG AI연구원은 18일(이하 현지시간) 캐나다 밴쿠버에서 진행 중인 세계 최대 컴퓨터비전학회 ‘CVPR(Computer Vision and Pattern Recognition·컴퓨터 비전 및 패턴 인식) 2023’에서 캡셔닝 AI를 처음 공개했다.
이미지 검색 시장을 타깃팅한 캡셔닝 AI는 챗GPT로 대표되는 대화형 생성 AI, 스테이블 디퓨전이나 미드저니 같은 이미지 생성 AI와는 차이가 있다. LG AI연구원은 “인간처럼 처음 보는 이미지까지 자연어로 설명할 수 있는 AI”라고 강조했다.
가령 별도 작업 없이 이미지만 입력하면 캡셔닝 AI는 “캐나다 국기 앞에 앉아있는 북극곰”, “오로라가 반짝이는 푸른 하늘과 산의 야경” 등의 문장으로 표현해낸다. 평균적으로 5개 문장과 10개 키워드를 10초 안에 생성한다.
종전에 접하지 못한 물체나 장면도 기존 경험과 지식을 활용해 이해하고 설명할 수 있도록 ‘제로샷 이미지 캡셔닝’ 기술을 적용했다는 설명. AI가 학습한 대량의 이미지와 텍스트 데이터를 기반으로 배경·인물·행동 등 이미지상 다양한 요소와 특징을 인식, 관계를 이해해 설명할 수 있게 하는 기술이다.
캡셔닝 AI는 이미지 1만장에 대한 텍스트 설명과 키워드 생성을 2일 안에 끝낼 수 있다. 빠른 시간 내에 맞춤형 이미지 검색·관리 시스템을 구축해 대량 이미지를 관리해야 하는 기업들의 업무 효율성과 생산성을 높일 수 있다고 연구원은 소개했다.
이미지·영상 등 시각 콘텐츠를 처리하는 세계 최대 플랫폼 기업 셔터스톡(Shutterstock)과의 긴밀한 협력이 뒷받침됐다. LG AI연구원은 방대한 이미지 캡셔닝 관련 노하우를 보유한 셔터스톡과 데이터 학습부터 서비스 개발까지 함께해 완성도를 높였다. 학습 데이터의 편향성·선정성 문제 같은 AI 윤리 검증과 저작권 투명성 확보 작업도 거쳤다고 덧붙였다.
세잘 아민(Sejal Amin) 셔터스톡 최고기술책임자(CTO)는 “현재 글로벌 고객사 10곳을 대상으로 ‘얼리 액세스(앞서 해보기) 프로그램’을 진행하며 캡셔닝 AI 기술을 발전시켜 나가고 있다”며 “캡셔닝 AI는 고객들이 반복 작업보다 좀 더 본질적이고 창의적인 일에 집중할 수 있게끔 돕는 AI가 될 것”이라고 말했다.
LG AI연구원은 학회 기간 중 LG 부스를 찾는 연구자들 대상으로 캡셔닝 AI 서비스를 시연한다. 아울러 오는 22일까지 계속되는 학회 기간에 LG전자 LG이노텍 LG에너지솔루션 LG유플러스 등 주요 계열사와 함께 채용 상담을 진행해 글로벌 AI 우수 인재 확보에 나선다.
연구원은 이날 캡셔닝 AI의 기반 기술인 ‘제로샷 이미지 캡셔닝’ 주제로 서울대 AI대학원, 셔터스톡과 함께 워크숍도 개최했다. 워크숍에선 상반기 진행한 ‘LG 글로벌 AI 챌린지’ 시상식이 함께 열렸다. 챌린지 1·2위 중국 난징과학기술대, KAIST(한국과학기술원) 소속 참가자들이 연구 성과를 발표했다.
김승환 LG AI연구원 비전랩장은 “첫 번째 상용화 서비스인 캡셔닝 AI를 발표하는 자리라 의미가 깊다”면서 “이미지 캡셔닝 분야 글로벌 연구 리더십을 확보하기 위해 다양한 파트너들과 유기적 협력체계를 구축해 새로운 평가 지표 개발과 신기술 연구를 해나갈 것”이라고 말했다.
김봉구 한경닷컴 기자 kbk9@hankyung.com