학계 "챗GPT 美 대입 성적 상위 10%라고?…답 외운 것일 뿐"
프린스턴대 교수진 "미리 훈련받은 내용으로 시험 치러…다른 질문엔 '0점'"
(서울=연합뉴스) 신유리 기자 = 대화형 인공지능(AI) 챗GPT 최신판이 미국 대입시험에서 상위 10% 성적을 기록했다고 홍보했으나 이는 미리 알려준 답을 반복하는 식으로 '커닝'을 했기 때문이라는 학계 주장이 나왔다.
22일(현지시간) 영국 일간 더타임스에 따르면 최근 GPT-4를 출시한 미 스타트업인 오픈AI는 이 시스템이 실제 대입과 변호사 시험에서 상위 10%를 기록해 '인간 수준의 능력'을 보여줬다고 발표했다.
GPT-4는 전 세계에 퍼진 챗GPT의 최신판으로, 미국 모의 변호사 시험에서는 90번째, 대학 입학 자격시험인 SAT 읽기와 수학시험에서는 각각 93번째와 89번째의 백분위수를 기록했다는 것이다.
오픈AI는 "평소 대화에서는 이전 버전인 GPT-3.5와 차이가 크게 나지 않을 수 있다"면서도 "GPT-4는 훨씬 더 신뢰할 수 있고 창의적이며 더 미묘한 명령을 처리할 수 있다"고 말했다.
하지만 미국 프린스턴대 교수진은 이런 주장을 정면으로 반박했다.
이 대학 컴퓨터공학과 아르빈 나라야난 교수 등은 뉴스레터 '엉터리 AI'(AI Snake Oil)에 실은 글에서 자체 검증을 토대로 이같은 주장을 펼쳤다.
연구진에 따르면 GPT-4가 시험을 잘 본 것은 앞서 훈련받은 정보를 토대로 치렀기 때문이며, 이는 미리 시험지를 읽어본 뒤 시험을 치는 것과 다르지 않다는 것이다.
이렇게 되면 GPT-4는 단순히 기억하고 있던 정답을 되풀이하는 것만으로도 성적을 낼 수 있다는 게 이들의 해석이다.
특히 GPT-4는 2021년 9월까지 정보를 토대로 훈련을 했는데, 실제로 2021년 이전 문제를 풀었을 때는 10점 만점에 10점, 2021년 이후 문제는 쉬운 것도 다 틀려 0점을 받은 것으로 드러났다고 한다.
교수진은 "GPT-4가 훈련 세트(training set)에서 답을 암기할 수 있다는 점을 보여준다"고 주장했다.
개발사인 오픈AI는 GPT-4를 훈련하면서 어떤 정보를 썼는지 아직 공개하지 않고 있다.
챗GPT 시험 성적을 둘러싼 논란은 이번이 처음이 아니다.
미국 샌타페이연구소의 멜라니 미첼 교수에 따르면 챗GPT 첫 버전은 경영학석사(MBA) 시험에서 질문의 표현을 바꾸자 답을 찾지 못한 채 헤맨 것으로 나타났다.
오픈AI는 실제 시험과 훈련용 정보가 뒤섞이지 않도록 검토한다고 밝혔지만, 나라야난 교수진은 "피상적이며, 엉성하고, 불안정한 검토"라고 일축했다.
newglass@yna.co.kr
(끝)
<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>
뉴스