인공지능(AI) 학습데이터를 구축하는 스타트업 `셀렉트스타`(SELECTSTAR, 공동대표 김세엽 & 신호욱)는 한국어 NLP 데이터셋 `KLUE`의 구축에 참여했다고 밝혔다.
KLUE란 한국어 자연어 이해 평가 데이터셋(Korean Language Understanding Evaluation Benchmark)의 약자로, 한국어 언어모델의 공정한 평가를 위한 목적으로 8개 종류(뉴스 헤드라인 분류, 문장 유사도 비교, 자연어 추론, 개체명 인식, 관계 추출, 형태소 및 의존 구문 분석, 기계 독해 이해, 대화 상태 추적)의 한국어 자연어 이해 문제가 포함된 데이터 집합체이다.
NYU, KAIST, 서울대, 연세대, 경희대, 서강대, 한밭대 등의 학계와 업스테이지, 네이버 클로바, 카카오 엔터프라이즈, 스캐터랩, 뤼이드 등의 공동연구기관 및 개인 연구자 자격으로 참여한 31명의 자연어 처리 전문가들이 약 7개월에 걸쳐 긴밀하게 협업하여 구축한 데이터셋이다.
셀렉트스타는 전체 데이터셋 중 절반인 뉴스 헤드라인 분류(Topic Classification,TC), 문장 유사도 비교(Semantic Textual Similarity, STS), 자연어 추론(Natural Language Inference, NLI), 기계 독해 이해(Machine Reading Comprehension, MRC) 데이터셋을 구축했다. 뿐만 아니라, 셀렉트스타 주관의 `인공지능 데이터셋 지원사업`을 통해 KLUE 데이터셋 스폰서로도 참여하였다.
KLUE 데이터셋은 영한 번역문이 아닌 일상생활에서 실사용되는 한국어 원문으로만 제작돼 한국어의 정확한 이해와 추론 능력을 평가할 수 있다. 특히 다양한 한국어 언어모델이 동일한 평가선상에서 정확하게 비교될 수 있는 평가기준과 토대가 된다는 점에서 앞으로 한국어 자연어처리 분야의 발전을 앞당길 것으로 기대된다. 또한 클루는 누구나 데이터에 접근, 활용할 수 있는 라이선스를 부착한 국내 최초 오픈 데이터셋이라는 점에서 중요한 의의가 있다.
한편, 셀렉트스타는 자체 수학적 알고리즘, 딥러닝 기술 등의 데이터 품질을 관리하는 기술력과 성장성을 인정받아 최근 `포브스 2021년 아시아 30세 이하 리더`에서 Enterprise Technology 분야 대표로 선정된 바 있다.