표·그래프는 물론 구어체도 이해…진화하는 한국어 인식 AI

입력 2020-08-10 15:12

수정 2020-08-10 18:50

인공지능(AI)의 한국어 독해능력을 높이기 위한 연구개발(R&D) 경쟁이 치열하다. 독해 능력이 높아지면 챗봇이 미리 답을 준비한 질문뿐만 아니라 예상치 못한 돌발 질문에도 대답할 수 있게 된다. 독해 능력이 챗봇 등 AI 서비스의 핵심 조건으로 꼽히는 이유다. 대형 정보기술(IT) 기업뿐 아니라 AI 스타트업도 경쟁력 있는 프로그램을 개발해 자존심을 건 싸움을 벌이고 있다. ‘코쿼드’에서 자존심 건 싸움 이들의 전쟁터는 LG CNS가 공개한 한국어 질의응답 데이터셋 ‘코쿼드(KorQuAD)’다. 2018년 12월 공개된 코쿼드1.0은 한국어 위키백과로부터 추출한 질의응답 모음 7만 개로 이뤄져 있다. AI 프로그램의 기계독해 능력을 평가하는 데 쓰인다. 기계독해는 AI가 주어진 글을 이해해 질문에 답하는 과제를 말한다. 예컨대 AI가 서울에 관한 위키백과 문서를 읽고 ‘서울에서 가장 높은 산은 무엇인가’에 답하는 것이다.

지난 7일 기준 코쿼드1.0에서 선두를 달리고 있는 프로그램을 개발한 곳은 LG사이언스파크다. 지난달 13일 95.39점(부분정답 인정 점수 기준)을 받으며 AI 스타트업 스켈터랩스의 프로그램을 0.24점 차로 제쳤다. 이 프로그램들이 기록한 점수는 성인 대졸자가 답변했을 때의 점수 평균(91.2점)을 크게 앞지른다. 코쿼드1.0에는 사람보다 높은 점수를 기록한 프로그램 48개가 등재돼 있다.

LG CNS는 지난해 9월 ‘코쿼드2.0’도 공개했다. 이 데이터셋은 질의응답 모음 규모를 기존 7만 개에서 10만 개로 늘렸다. 문장뿐만 아니라 표와 리스트도 포함하고 있어 난도가 더 높다. 글의 구조를 정확하게 이해해야 올바른 답을 낼 수 있다. 여기서도 사람의 점수(83.86점)를 능가하는 AI 프로그램이 5개나 나왔다. 삼성SDS가 개발한 프로그램이 88.78점으로 1위를 기록했다. 스켈터랩스가 2.0에서도 2위에 올랐다.

IT 기업들은 기계독해 기술로 챗봇의 경쟁력을 크게 높일 수 있다고 본다. 기존에는 챗봇 개발을 위해 예상 질문을 설정하고 일일이 답을 입력해야 했다. 기계독해 기술을 활용해 문서만 입력하면 챗봇이 알아서 답을 찾아낼 수 있어 개발 시간과 비용을 크게 절감할 수 있다. 구어체 AI 개발도 활발구어체를 이해할 수 있는 AI 프로그램을 개발하려는 시도도 활발하다. 한국전자통신연구원(ETRI)은 이달 한국어 구어체 언어분석 API(응용프로그램 인터페이스)를 공개했다. 위키백과·법령 등 문어체를 주로 이해하는 기존의 언어분석 기술을 확장했다. ETRI 관계자는 “사람의 대화 분석오류를 최대 41% 개선해 정확도를 높였다”고 설명했다.

구어체 언어분석은 문어체 분석보다 난도가 높다. ETRI가 공개한 구어체 언어분석 기술은 형태소 분석 기술과 개체명 인식 기술이다. 형태소 분석 기술은 의미의 최소 단위를 분석한다. 실제 대화할 때 사람들은 ‘경상도인데’라고 정확하게 말하는 대신 ‘경상돈데’ 등으로 축약한다. 기존의 형태소 분석 기술은 이를 제대로 인식하지 못하고 ‘경상돈’과 ‘데’로 나누어 인식했다. ETRI의 기술로는 이를 ‘경상도’와 ‘인데’로 나누어서 인식할 수 있다.

개체명 인식 기술은 문장 안의 고유 대상과 의미를 파악한다. ‘국민은행’이라는 단어가 ‘국민’이라는 명사와 ‘은행’이라는 명사의 결합이 아니라 특정 은행의 고유한 명칭이라는 사실을 이해한다. 임준호 ETRI 책임연구원은 “이번 API 공개로 국내 AI 시장이 더욱 활성화되길 기대한다”고 말했다.

최한종 기자 onebell@hankyung.com