LG AI 연구원, 이미지→텍스트로 바꿔주는 AI 서비스 내놨다

입력 2023-11-29 23:00
수정 2023-11-30 14:40

LG AI 연구원이 이미지를 텍스트로 바꿔주는 생성 인공지능(AI) 서비스를 내놨다. 이미지 데이터 관리와 시각장애인을 위한 시각 자료 해설 등에 이 서비스를 쓰기로 했다. 이 연구원은 아마존웹서비스(AWS)를 통해 생성 AI를 활용한 기업간거래(B2B) 솔루션을 외부에도 공급하기로 했다.
AI가 이미지 3억5000만장 학습
LG AI 연구원은 29일(현지시간) 미국 라스베이거스에서 AWS가 개최하는 컨퍼런스 행사인 ‘AWS 리인벤트 2023’에서 “이미지를 텍스트로 변환하는 솔루션을 출시했다”고 발표했다. 연구원은 이 솔루션에 자체 개발한 다중표현(멀티모달)용 AI 기초모델인 엑사원을 적용했다. 연산 작업에는 AWS의 클라우드 솔루션인 ‘아마존 엘라스틱 컴퓨트 클라우드’를 썼다.

이 솔루션을 이용하면 시간당 2000개가 넘는 이미지에 캡션을 달 수 있다. 연구원은 머신러닝 모델을 관리하는 AWS 서비스인 ‘아마존 세이지메이커’를 활용해 고해상도 이미지 3억5000장을 엑사원에 학습시켰다. 데이터 용량을 조정할 수 있는 클라우드 서비스를 적용한 덕분에 결과 값을 신속하게 미세조정 하기가 수월했다는 게 연구원의 설명이다.

연구원은 광고, 패션, 유통 등의 분야에서 기업들을 대상으로 이 솔루션을 공급할 계획이다. 대기업은 사내에서 이미 보유하고 있는 이미지를 찾지 못해 외부에서 그 이미지를 가져다 쓰는 일이 발생하기 쉽다. 여러 계열사와 해외 지사를 거느려 데이터베이스가 방대하고 곳곳에 데이터가 흩어져 있어서다. 이화영 LG AI 연구원 상무는 “이 솔루션을 적용하면 이미지를 텍스트로 분류해 라이브러리로 관리하기가 쉬워진다”며 “검색만 하면 필요로 하는 마케팅용 이미지를 찾을 수 있다”고 말했다. “외부업체도 쓸 수 있어...솔루션 계속 내놓을 것”
연구원은 이 솔루션에 여러 캡션을 생성한 뒤 이미지를 정확하게 설명하는 캡션만 추려내는 알고리즘을 도입했다. 엉뚱한 텍스트가 표시되는 문제를 최소화하기 위해서다. 이 상무는 “기존에도 이미지를 텍스트로 바꾸는 기술을 내놓은 업체가 있었지만 캡션이 장황한 경우가 많았다”며 “LG AI 연구원의 솔루션은 검색에 적합한 캡션만 추려서 표시한다”고 설명했다.


연구원은 시각장애인이 잘 보지 못하는 이미지를 텍스트로 바꿔 청각 자료로 전달하는 작업도 추진하기로 했다. 공익 목적으로도 솔루션의 활용 가치가 충분하다는 판단이다. 이 솔루션은 ‘아마존 세이지메이커 점프스타트’를 통해 외부 업체도 이용할 수 있다. 장당 내지 시간당 요금을 내는 방식이다. 5일간 무료로 사용 가능한 시험판을 미리 체험할 수도 있다.

LG AI 연구원은 계열사와 소통을 계속해 생성 AI를 활용한 솔루션을 꾸준히 내놓겠다는 구상이다. 지난 8월 LG생활건강이 출시한 소형 즉석 타투 프린터인 ‘임프린투’도 연구원의 노력이 담긴 결실이다. 이 프린터는 텍스트를 이미지로 바꿔주는 생성 AI 기술을 활용해 수천가지 디자인을 피부나 의류에 인쇄할 수 있다. 젊은 층 사이에서 지워지는 타투에 대한 수요가 높다는 LG생활건강의 수요 분석을 연구원이 AI 기술로 응용한 결과다.

연구원은 생성 AI를 활용한 솔루션의 공급 범위에 제한을 두지 않기로 했다. 이 상무는 “전문 문헌·용어를 이해할 수 있는 생성 AI 솔루션을 AWS의 앱 구축 서비스인 ‘배드록’을 통해 외부에 유통하는 방안을 논의하고 있다”며 “앞으로도 계속 계열사와의 협업을 통해 생성 AI를 활용한 B2B 서비스를 내놓을 것”이라고 말했다.

바시 팔로민 AWS 생성AI 부문 부사장은 “LG AI 연구원이 엑사원 플랫폼과 AWS에 구축한 이미지 텍스트 전환 솔루션을 활용해 어떻게 AI와 디자이너, 아티스트가 협업할 수 있는지를 보여줬다”며 “앞으로도 연구원이 세계적으로 창의성을 발휘할 수 있기를 바란다”고 말했다.

이주현 기자 deep@hankyung.com