몇 년 전 서양인의 의료 데이터를 기반으로 개발한 의료 인공지능(AI)이 국내에서는 확연히 떨어지는 성능을 보인 사례가 있었다. 이 사례뿐만 아니라 한국어로 학습하지 않은 AI 스피커는 한국어를 제대로 알아들을 수 없고, 한국 도로 환경을 학습하지 않은 자율주행차는 국내 도로에서 안전하게 운행할 수 없을 것이다. 이처럼 국민이 체감하는 AI 서비스가 더욱 활발히 개발되려면 해외의 개방데이터뿐 아니라 한국어와 한국인의 얼굴, 한국 도로망과 한국인이 취약한 질환 등 다양한 ‘한국형 AI 학습용 데이터’가 필요하다. 앞서 말한 데이터는 모두 정부가 지난해 구축을 시작해 올해 개방을 앞두고 있다.
정부는 그동안 민간과 협력해 양질의 데이터를 모아 ‘데이터댐’에 채우기 위해 노력해왔다. 민간 수요를 기반으로 활용 기업과 전문가 등의 의견을 수렴해 한국어 음성 데이터, 암 질환 영상 데이터, 도로주행 데이터 등 산업 파급효과가 크고 민간에서 대규모로 구축하기 어려운 데이터를 함께 기획했고 AI·데이터 기업, 대학 및 병원 등 국내 주요 기업·기관이 대거 참여해 170종의 대규모 데이터를 구축했다.
또 지난해 경력단절여성, 취업준비청년부터 노년층까지 총 4만여 명이 데이터를 수집하고 정제해 가공하는 과정에 참여하도록 함으로써 코로나19 시대에도 누구나 비대면으로 할 수 있는 일자리를 제공하기도 했다. 이런 점에서 데이터댐 구축은 대공황 시기 미국의 후버댐 건설에 비교되기도 한다.
정부와 기업, 전문가뿐 아니라 국민이 힘을 모아 함께 구축한 대규모 AI 학습용 데이터가 곧 개방을 앞두고 있다. 전문기관과 주요 활용 기업이 참여해 품질 검증과 활용성 검토를 마쳤으며, 과학기술정보통신부는 개방 후에도 이용자의 피드백을 거쳐 데이터를 지속적으로 개선해나갈 계획이다.
국내에 AI 도입이 점차 확산되고 있지만, 국내 기업들은 여전히 AI 개발에 활용할 데이터에 갈증을 느끼고 있다. 최근 한국개발연구원(KDI) 조사에서도 기업들은 AI 도입·운용 과정에서 가장 어려운 점을 ‘데이터 부족’으로 꼽았다.
이번에 AI 허브를 통해 개방되는 170종, 4억8000만 건의 데이터는 대규모 AI 학습용 데이터를 직접 구축하기 어려운 한국 중소기업과 스타트업에 ‘가뭄 속 단비’가 돼 AI 개발의 진입장벽을 한층 낮춰줄 것이다.
그러나 ‘구슬이 서 말이라도 꿰어야 보배’라는 속담처럼 대규모 예산과 인력을 투입해 구축한 데이터도 많은 기업과 국민이 활용해야 의미있다. 이를 위해 정부는 데이터를 구축해 개방하는 데 그치는 것이 아니라 민관 협력의 범위를 확장해 수요자가 데이터를 더 편리하게 활용할 수 있도록 제반 환경을 개선해나갈 필요가 있다. 나아가 민간에서 데이터를 활용하면서 느끼는 어려움에 관한 피드백을 적극적으로 수용해 데이터댐의 품질을 지속적으로 관리하고 개선해야 할 것이다. 과기정통부뿐만 아니라 4차산업혁명위원회도 데이터 분야에서 민관 협력의 허브 역할을 할 수 있도록 적극 노력할 것이다.
민관 협력으로 기획·구축해 개방하는 대규모 AI 학습용 데이터가 산업 곳곳으로 스며들어 국민이 체감할 수 있는 혁신 서비스의 개발을 앞당기고 국내 AI 기술 개발을 가속화하는 계기가 되기를 기대한다.
뉴스