생성형 AI 소송의 쟁점, ‘암기와 재현’[김우균의 지식재산권 산책]

입력 2026-03-21 08:04
수정 2026-03-21 08:05
[지식재산권 산책]

최근 생성형 AI 학습 관련 소송에서는 원저작물에 대한 AI 모델의 ‘memorization(기억·암기)’과 출력 단계의 ‘regurgitation(기계적 재현)’ 문제가 중요한 이슈로 대두되고 있다.

생성형 AI 소송 초기에는 ‘암기와 재현’ 여부는 ‘학습 단계에서의 무단 이용 사실’을 증명하거나 추정하는 방법으로서 활용됐다. 저작권자들은 생성형 AI 개발사들이 어떤 저작물들을 학습했는지 공개하지 않는 이상 자신의 저작물이 생성형 AI 학습에 실제로 이용되었는지조차 알 수 없다.

그런데 만약 생성형 AI가 프롬프트에 따라 원저작물 자체 또는 원저작물과 아주 유사한 표현을 재현해낸다면 이는 AI 학습 단계에서 원저작물이 무단 이용되었다는 사실을 증명하거나 최소한 추정할 수 있는 증거가 될 수 있었던 것이다.

그런데 최근까지의 소송 추이를 살펴보면 ‘암기와 재현’이라는 쟁점이 내포하고 있는 더 중요한 의의가 드러나고 있다. 생성형 AI의 학습과정에서 이뤄지는 저작물 무단이용이 ‘공정이용’으로 면책될 수 있는 가장 중요한 근거 중의 하나는 그 학습의 목적이 원저작물의 표현을 향유, 감상하거나 원저작물의 표현을 재현하려는 것이 아니라 단지 그 ‘패턴’만을 익혀 원저작물과는 전혀 다른 새로운 산출물을 만들어내려는 것이라는 점에 있다.

만약 생성형 AI를 학습시킨 목적이 원저작물을 암기해 그대로 재현하게 하려는 것이었다면 이는 애초부터 ‘transformative use(변형적 이용)’가 아니므로 공정이용으로 면책될 수도 없는 것이다.

‘텍스트·데이터 마이닝(TDM) 면책 규정’을 두고 있는 나라에서는 어떤가. TDM 면책 규정은 패턴 등을 학습시킬 목적이라면 저작물의 복제를 허용하되 권리자가 허락을 유보한 경우에는 복제를 허용하지 않는다는 취지의 규정이다. TDM 면책 규정을 두고 있는 나라에서는 생성형 AI가 원저작물을 암기, 재현하더라도 저작권 침해 책임이 면제되는 것일까. 아니다.

독일의 음악저작권 관리단체(GEMA)가 오픈AI를 상대로 제기했던 저작권 침해 소송에서 뮌헨지방법원은 오픈AI 모델이 학습한 노래 가사를 내부적으로 암기한 뒤 재현 가능한 상태에 있다면 이는 단순한 통계적 학습이나 일반적 정보 추출에 그치지 않고 저작물이 모델 파라미터에 체화된 것으로 볼 수 있고, 이러한 경우 학습 단계의 복제가 인정될 수 있으며, TDM 면책 역시 적용되지 않는다고 보았다. 즉 학습과정에서 저작물이 재현 가능한 수준으로 고정되어 버린 경우라면 면책의 예정 범위를 벗어난다고 판단하였던 것이다.

‘암기와 재현’에 관한 위와 같은 쟁점은 미국에서 최근 제기된 소송의 소장들에서도 반복적으로 등장하고 있다. 그레이스노트(Gracenote)와 오픈AI 사건에서 원고는 자사가 수십 년간 구축한 방송·영상 메타데이터 데이터베이스가 단순한 사실의 집합이 아니라 편집자들이 작성·선별·배열한 창작적 데이터베이스라고 주장하면서 오픈AI 모델들이 그레이스노트의 고유 식별체계인 TMSID를 정확히 또는 거의 정확히 출력하고, 프로그램 설명문과 태그 등 편집적·서술적 요소까지 거의 그대로 재현한다고 주장하고 있다. 그리고 원고는 이를 AI 모델이 그레이스노트의 표현적 선택과 조직 원리를 기억하고 다시 꺼내 쓰는 현상이라고 주장하고 있다.

브리태니커 백과사전(Encyclopedia Britannica) 및 메리엄웹스터(Merriam-Webster)가 오픈AI를 상대로 제기한 소송에서도 브리태니커 측은 오픈AI가 자사 백과사전 및 사전 콘텐츠를 모델 학습에 사용했고 챗GPT가 그 결과 백과사전 항목과 정의문을 거의 그대로 재현하여 원래 브리태니커 사이트로 유입되었어야 할 트래픽을 잠식한다고 주장하고 있다.

생성형 AI의 학습과정에 허락 없이 저작물을 이용하는 행위가 ‘공정이용’에 해당한다고 본 판결들이 선고되고 있지만 그렇다고 예외 없이 모두 ‘공정이용’이라고 인정되는 추세도 아니다. 특히 모델이 학습한 저작물을 재현 가능한 수준으로 기억하고, 사용자의 간단한 프롬프트만으로 이를 동일·유사하게 출력하며, 그 결과 원저작물 또는 그 라이선스 시장을 실질적으로 대체하는 경우라면 공정이용이나 TDM 면책을 인정받기는 쉽지 않을 것이다.

김우균 법무법인(유) 세종 변호사