LG CNS가 인공지능(AI)의 한국어 이해를 돕는 표준데이터 10만여 개를 5일 무료로 공개했다.
언어 AI 관련 개발을 하기 위해서는 학생들이 공부하는 교과서처럼 참고할 수 있는 AI 학습용 표준데이터가 필요하다. 해외에서는 미국 스탠퍼드대와 마이크로소프트(MS) 등이 제작한 영문 표준데이터가 활용된다. 하지만 한국어 관련 표준데이터는 없었다. 국내에서는 해외 AI 표준데이터를 활용해 번역하거나 데이터를 자체적으로 마련해야 했다.
LG CNS는 지난해 12월 인터넷 백과사전인 위키백과 정보를 바탕으로 AI 학습용 한국어 표준데이터 7만 개가 탑재된 ‘코쿼드 1.0’을 제작해 처음 공개했다. 네이버, 카카오 등의 국내 유수 정보기술(IT) 기업들과 AI 현업 종사자 등 50여 개 팀이 코쿼드를 사용한 AI 개발에 나서기도 했다.
이번에 배포한 ‘코쿼드 2.0’은 한국어 표준데이터를 10만 개로 확대했다. 또 단답형에서 장문의 답변이 가능한 AI를 개발할 수 있도록 데이터를 강화했다.
예를 들어 ‘대한민국의 수도와 그 면적은’이라는 질문에 ‘서울특별시, 605.2㎢입니다’라고 답하는 AI는 코쿼드 1.0 학습만으로 충분했다. ‘코쿼드 2.0’을 통해서는 ‘서울특별시 특징은?’이라는 질문에 ‘도시 중앙으로 한강이 흐르고 북한산, 관악산, 도봉산 등의 여러 산으로 둘러싸인 곳”이라는 장문의 답변이 가능하다.
코쿼드 2.0은 또 AI가 표나 목록 형태에 담긴 정보도 읽어 답변할 수 있도록 표준데이터 범위도 확대했다. 이번에 출시한 한국어 표준데이터는 ‘코쿼드 2.0 웹사이트’에서 누구나 다운로드할 수 있다.
현신균 LG CNS 최고기술책임자(CTO·부사장)는 “응용 분야가 무궁무진한 AI 언어 개발 분야에서 내부 데이터를 외부에 개방해 AI 생태계 조성에 기여하고자 한다”고 말했다.
김주완 기자 kjwan@hankyung.com