[사이테크+] "AI 챗봇, 창의적 사고 능력도 평균적 인간 수준 넘어섰다"
"창의적 사고 실험 평균 점수 AI가 인간보다 높아…최고점수는 인간 우위"
(서울=연합뉴스) 이주영 기자 = 챗GPT 같은 거대언어모델(LLM) 인공지능 챗봇이 창의적 사고를 수행하는 과제에서 평균적인 인간 능력을 넘어섰다는 실험 결과가 나왔다.
핀란드 투르쿠대 미카 코이비스토 교수와 노르웨이 베르겐대 시몬 그라시니 교수팀은 15일 과학저널 '사이언티픽 리포트'(Scientific Reports)에서 일상적 사물의 대체 용도를 고안하는 '확산적 사고'(divergent thinking) 평가 실험에서 AI 챗봇들이 인간 참가자들보다 높은 평균 점수를 기록했다고 밝혔다.
연구팀은 다만 인간 응답은 AI 답변보다 점수 범위가 넓었고 최고 점수는 인간이 일반적으로 더 높았다며 이는 창의성이 우수한 사람은 여전히 챗봇을 능가한다는 것을 보여준다고 덧붙였다.
창의성은 전통적으로 인간만의 능력으로 여겨져 왔다. 그러나 LLM 인공지능의 빠른 발전으로 수준 높은 예술작품을 제작할 수 있는 생성형 AI 챗봇이 등장하면서 인간과 기계의 창의성 차이에 대한 의문이 제기되고 있다.
연구팀은 이 연구에서 챗GPT3와 챗GPT4, 카피.AI(Copy.Ai) 등 3가지 AI 챗봇과 인간 참가자 256명을 대상으로 밧줄과 상자, 연필, 양초 등 4가지 사물의 다양한 용도를 고안해내는 확산적 사고 실험을 통해 인간과 AI의 창의성을 평가했다.
확산적 사고는 창의성과 관련된 사고 과정의 한 유형으로 주어진 과제에 대해 다양한 아이디어나 해결책을 도출해내는 것을 말한다. 일반적으로 일상적인 물건을 제시하고 짧은 시간 내에 가능한 한 많은 대체 용도를 생각해내는 '대체 용도 과제'(AUT : Alternate Uses Task)를 통해 평가한다.
연구팀은 응답자가 누구인지 모르는 평가자들에게 AI 챗봇과 인간의 응답에 대해 사물의 원래 용도와 연관성이 얼마나 밀접한지(의미적 거리)와 창의성(creativity) 점수를 평가하게 했다. 의미적 거리는 0~2점, 창의성은 1~5점 척도가 사용됐다.
그 결과 챗봇이 생성한 응답은 의미적 거리와 창의성 점수가 각각 0.95와 2.91로 사람 응답(의미적 거리 0.91, 창의성 2.47)보다 훨씬 높았다.
인간 응답은 의미적 거리와 창의성 모두 더 넓은 점수 분포를 보였다. 최저점은 챗봇 응답보다 훨씬 낮았고 최고점은 일반적으로 챗봇보다 높았다. 인간 참가자들은 8개 평가 범주 중 7개에서 챗봇보다 높은 최고 점수를 받았다.
연구팀은 이 연구 결과는 창의성 평가와 관련된 단일 과제의 성과만 고려한 것이라는 한계가 있지만 AI 챗봇이 적어도 평균적인 인간만큼 또는 인간을 능가하는 창의적인 아이디어를 창출할 수 있음을 시사한다고 말했다.
이어 이 연구는 창의력 향상 도구로서 AI의 잠재력과 함께 AI 기술로는 완전히 복제하거나 능가하기 어려운 인간 창의성의 독특하고 복잡한 특성도 보여준다며 향후 연구에서 인간의 창의력을 높이기 위한 프로세스에 AI를 통합하는 방법을 모색할 것을 제안했다.
◆ 논문 출처 : Scientific Reports, Mika Koivisto et al., 'Best humans still outperform artificial intelligence in a creative divergent thinking task', https://www.nature.com/articles/s41598-023-40858-3
scitech@yna.co.kr
(끝)
<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>
뉴스