“AI허브 못 믿겠다”…제2의 이루다 사태 우려

입력 2021-05-10 17:37
수정 2021-05-10 17:37
<앵커>

수많은 데이터들을 자체적으로 수집·가공하기 어려운 스타트업들은 정부가 제공하는 다양한 분야의 공공 데이터를 활용해 기술 개발을 진행하고 있습니다.

그런데 최근 정부가 제공한 공공 데이터에 익명 처리가 제대로 안 된 개인정보들이 다수 포함돼 있는 것으로 나타나 논란이 일고 있습니다.

양현주 기자가 취재했습니다.

<기자>

정부는 지난 2018년부터 ‘AI허브’를 통해 다양한 분야의 공공 데이터들을 민간에 공개해 왔습니다.

교통과 물류, 교육 등 170여 종에 이르는 데이터들을 누구나 쉽게 다운로드 받을 수 있게 한 겁니다.

다만 해당 데이터는 불특정 다수에게 제공되는 정보이기 때문에 가명정보 처리 가이드라인에 따라 익명정보로 바꿔 제공하는 게 원칙입니다.

익명정보는 다른 정보를 사용해도 더 이상 개인을 알아볼 수 없게 조치된 정보를 의미합니다.

실제로 데이터를 신청해 살펴보니, 일반적으론 차량 번호, 이름 등이 아예 보이지 않도록 처리돼 있습니다.

그런데 조금 더 들여다보면 공동명의의 차종과 차주의 이름, 아파트 이름과 동·호수가 적힌 주소, 차량번호 등 익명 처리되지 않은 정보들이 곳곳에서 발견됩니다.

이에 대해 AI허브를 관리하는 과기부 산하 조직인 한국지능정보사회진흥원은 “이중으로 익명 처리를 거쳤지만 일부 누락된 부분이 발생한 것 같다”고 밝혔습니다.

현재 AI허브 데이터 다운로드 된 건수는 지난달 말 기준 총 61,500건에 달합니다.

많은 기업들이 이렇게 얻은 데이터를 기술 개발에 활용했다면 개인정보 유출 위험은 더 커질 수 있습니다.

특히 해당 데이터를 활용해 답변을 직접 생성하는 인공지능의 경우는 문제가 더 심각합니다.

얼마 전, 개인 정보 유출로 논란이 된 AI 챗봇 '이루다'도 비슷한 사례입니다.

AI허브 이용 약관에는 ‘데이터 활용을 통해 일어난 손해에 대해선 책임을 부담하지 않는다’고 명시돼 있습니다.

대용량 데이터를 제공해 4차 산업 생태계를 키우겠다는 당초 취지와는 달리, 잘못된 데이터로 인한 책임까지 민간에 떠넘기는 게 아니냐는 지적이 나오고 있습니다.

한국경제TV 양현주입니다.