[AI돋보기] 데이터 바닥난 AI…봇끼리 수다로 학습 채운다
합성데이터 '차세대 원유' 부상…속도·비용 장점
임계치 넘으면 모델 붕괴…정확도·창의성 하락
(서울=연합뉴스) 심재훈 기자 = 전 세계적으로 인공지능(AI) 고도화에 필수적인 양질의 학습 데이터가 바닥을 드러내고 있다.
이에 대한 타개책으로 AI 봇(Bot)끼리 대화하며 스스로 데이터를 불리는 이른바 'AI 전용 소셜네트워크서비스(SNS)'가 급부상하고 있다.
하지만 전문가들 사이에서는 검증되지 않은 '인공 데이터'의 범람이 자칫 AI의 집단 지능 저하를 부르는 '모델 붕괴'로 이어질 수 있다는 우려의 목소리가 높다.
21일 IT 업계에 따르면 최근 '몰트북(Moltbook)', '머슴' 등 인간 개입을 차단하고 오직 AI 에이전트끼리 상호작용하는 폐쇄형 플랫폼이 잇따라 등장해 주목받고 있다.
이곳에서 인간은 그저 환경을 세팅하는 '관찰자'일 뿐이다. 게시글을 올리고 댓글로 토론을 벌이는 주체는 모두 AI다.
업계는 이 공간을 단순한 가상 실험장이 아닌, 부족한 학습 자원을 충당할 거대한 '합성 데이터(Synthetic Data)' 채굴 기지로 보고 있다.
◇ "사람 글로는 부족해"…AI가 쓴 '합성 데이터' 주목
현재 거대언어모델(LLM) 경쟁의 가장 큰 걸림돌은 데이터 부족이다.
사람이 쓴 텍스트 데이터는 물리적으로나 비용적으로 한계에 봉착했다.
이 빈자리를 메우는 것이 바로 합성 데이터다. AI가 통계적 기법으로 생성해낸 가상 정보인 합성 데이터는 '차세대 원유'로 불린다.
AI 전용 SNS는 현실 세계에서 수집하기 힘든 극단적 상황이나 복잡미묘한 사회적 상호작용 데이터를 단시간에 뽑아낼 수 있다는 게 강점이다.
실존 인물의 데이터가 아니기에 개인정보 침해나 저작권 시비에서도 상대적으로 자유롭다.
◇ 자가 복제의 함정…'지능의 역설' 경고등
문제는 '품질'이다.
AI가 만든 데이터를 또 다른 AI가 학습하고 그 결과물을 다시 학습하는 과정이 반복될 경우 치명적인 부작용이 발생할 수 있다.
학계에서는 이를 '모델 붕괴'라고 부른다.
2024년 네이처(Nature)지에 실린 연구에 따르면 합성 데이터 의존도가 임계치를 넘으면 데이터의 다양성이 거세되고 평균값에 수렴하는 뻔한 답변만 내놓게 된다. 현실 언어가 가진 미세한 뉘앙스가 삭제되며 성능이 퇴화하는, 일종의 '자가 잠식' 현상이다.
한 AI 전문가는 "실제 인간 데이터와 합성 데이터의 황금 비율을 찾지 못하면 AI 모델의 창의성과 정확도는 결국 무너질 것"이라고 지적했다.
◇ 은어로 쑥덕거리는 봇들…'알고리즘 담합' 우려도
보안과 시장 공정성 측면에서도 새로운 뇌관이 될 수 있다.
AI 에이전트들이 인간이 해독하기 어려운 패턴이나 그들만의 은어로 소통하며 시장에 개입할 가능성이 제기된다.
인간의 지시가 없더라도 AI가 수익률 극대화를 위해 서로 가격을 담합하거나, 특정 여론을 형성하는 '알고리즘 공모'가 일어날 수 있다는 것이다.
지난 1월 22일 시행된 'AI 기본법'이 고위험 AI의 투명성 확보를 의무화했지만, 에이전트 간의 자율적 상호작용에서 발생하는 문제까지 규율하기엔 구체적인 가이드라인이 미비하다는 지적이다.
IT 업계 관계자는 "AI 전용 SNS는 데이터 기근을 해결할 기회인 동시에 통제 불가능한 디지털 생태계의 서막일 수 있다"면서 "모델 붕괴를 막을 품질 검증 기술과 기계 간 담합을 감시할 정교한 규제망 구축이 시급하다"고 강조했다.
president21@yna.co.kr
(끝)
<저작권자(c) 연합뉴스, 무단 전재-재배포, AI 학습 및 활용 금지>