인공지능(AI) 모델을 구축해 활용하려면 학습용 데이터가 필수다. 카페에서 겨울용 음료 메뉴 개발에 AI를 활용하려면 특정 지역의 평일·주말별 유동 인구, 동종업계 매출 데이터, 연말 평균 기온 등이 필요하다는 뜻이다.
하지만 개인이 이런 데이터를 구하긴 쉽지 않다. 원천 데이터 확보에만 상당한 시간과 자금이 필요해서다. 개인 자격으로는 접근이 어려운 데이터도 적잖다. 이럴 때 필요한 게 무료 데이터 도구다.
국내에선 정부가 구축해 운영 중인 AI 인프라 통합 플랫폼 ‘AI허브’의 규모가 가장 크다. 작년엔 공개 데이터 수가 약 5억 건이었지만 1년 만에 규모가 두 배 이상으로 늘었다. 지난 7월 기준 한국어·영상 이미지·헬스케어 등 381종에 걸쳐 데이터 약 11억 건을 공개하고 있다.
민간에선 대규모로 구축하기 어려운 데이터를 정부와 기업·기관 등이 협업해 모은 게 특징이다. 서울대, KAIST 등 대학 118곳과 서울대병원·국립암센터 등 병원 50곳을 비롯해 총 811개 기업·기관이 참여했다. 개인 자격으로 참여한 이들도 4만3000여 명에 달했다. 이들 데이터는 AI 연구 개발 목적으로 인가받은 기관·개인이 다운로드해 쓸 수 있다.
무슨 데이터를 어디서 얻어야 할지 감이 잡히지 않는다면 ‘통합데이터 지도’를 활용할 수 있다. AI허브를 비롯해 국내 16대 빅데이터 플랫폼 등에 퍼져 있는 데이터를 검색할 수 있는 플랫폼이다. 데이터셋 분석 사례도 공개해 특정 모델에 필요한 데이터를 제시한다.
예컨대 통합데이터 지도로 ‘서울열린데이터광장’을 검색하면 서울시 지하철호선·역·시간대별 승하차인원 데이터를 확인하고, ‘금융빅데이터플랫폼’의 수도권 지하철 이용통계 데이터도 분석할 수 있다.
글로벌 정보기술(IT)기업 구글도 ‘데이터셋 검색’을 지원한다. 사전에 공유된 데이터셋 중 약 2500만 개를 미리 분류해 간단한 키워드만으로도 검색할 수 있게 했다. 구글의 AI 경진대회 플랫폼 ‘캐글’도 데이터 검색 기능을 지원한다.
선한결 기자 always@hankyung.com
뉴스