작년부터 미국 작가 협회에서 오픈 AI 저작권에 대한 소송을 진행 중인 가운데 오픈 AI 측이 논란이 될 수 있는 AI 모델 훈련용 데이터 사본을 삭제한 것으로 나타났다.
비즈니스 인사이더는 작가 협회에서 제기한 집단 소송과 관련해 새롭게 공개된 문서에 따르면 오픈 AI가 GPT-3 AI 모델을 훈련하는 데 사용되었던 '책1'과 '책2'라는 두 개의 거대한 데이터 세트를 삭제했다고 보도했다.
고품질 훈련 데이터는 강력한 인공지능 모델을 위해 중요한 부분이다. 오픈 AI와 다른 회사들은 이러한 모델을 만들기 위해 많은 책과 인터넷 데이터를 사용했으며, 이 정보를 만든 회사들은 이에 대한 사용료를 요구하며 법정에서 싸우고 있다.
2020년 백서에서 오픈AI는 책1, 2가 "인터넷 기반의 데이터"라며 "GPT-3를 만드는 데 사용된 교육 데이터의 16%를 차지한다고 밝혔다.
오픈 AI는 화요일(현지 시각) 성명에서 "챗GPT에 동력을 공급하는 모델과 오늘날 우리의 API는 이 데이터 세트를 사용하여 개발된 것이 아니"라고 밝혔다. 또한 "이 데이터 세트를 만든 두 직원은 더 이상 회사에 있지 않으며, 이 데이터 세트는 2021년 말에 사용이 중단되어 2022년에 삭제되었다"고 덧붙였다.