대규모 언어모델(LLM) 기반의 의료용 인공지능(AI)이 녹음된 음성 메시지를 분석해 주요우울장애(MDD)를 식별할 수 있다는 임상시험 결과가 나왔다. 정확도는 75~91%에 이른다.
브라질 산타 카사 지 상파울루 의과학대학 루카스 마르케스 교수팀은 7가지 LLM 모델을 주요우울장애 환자와 건강한 성인 180명의 왓츠앱(WhatsApp) 음성 메시지를 이용해 학습시키고, 주요우울장애를 진단하게 하는 임상시험에서 이 같은 결과를 얻었다고 밝혔다.
해당 임상시험 결과는 21일(현지시간) 의학 저널 플로스 정신 건강(PLOS Mental Health)에 실렸다.
연구팀은 "일부 의료용 LLM 모델은 주요우울장애 식별에서 여성은 91%, 남성은 78%의 정확도를 보였다"면서 "이는 AI를 실제 환경에서 음성 메시지를 이용해 주요우울장애를 식별하는 데 활용할 수 있는 가능성을 보여준다"고 말했다.
주요우울장애는 세계적으로 2억8000만명 이상에게 영향을 미치는 흔한 정신건강 질환이다. 그러나 주요우울장애 진단에 활용할 수 있는 신뢰할 수 있는 생물학적 지표가 부족해 선별 검사가 어렵고 이는 과소 진단으로 이어진다고 연구팀은 지적했다.
연구팀은 이번 연구에서 주요우울장애 환자 78명과 건강한 일반인 82명이 한 주를 어떻게 보냈는지 설명하는 내용과 1부터 10까지 세는 것을 녹음한 왓츠앱 음성메시지를 이용해 7가지 LLM 모델을 훈련하고, 주요우울장애를 선별하게 했다.
훈련용 데이터세트에는 MDD 환자 45명(여성 37명, 남성 8명)과 건강한 지원자 41명(여성 30명, 남성 11명)이 포함됐고, 학습 후 MDD를 선별하는 시험용 데이터세트에는 환자 33명(여성 17명, 남성 16명), 대조군 41명(여성 21명, 남성 20명)이 포함됐다.
모든 참가자는 브라질 포르투갈어를 모국어로 사용했다.
시험 결과, LLM은 우울 상태를 분류할 때, 남성보다 여성에서 더 높은 정확도를 보였으며, 특히 '한 주를 어떻게 보냈는지 설명하라'는 과제를 줬을 때 정확도 차이가 더 두드러졌다.
최고 성능 모델의 경우 '한 주 설명' 음성메시지를 이용할 경우 주요우울장애 진단 정확도가 여성은 91.9%에 달했고, 남성 참가자의 정확도는 75%였다. '1부터 10까지 세기' 음성메시지를 이용한 진단에서는 여성이 82%, 남성이 78%로 나타났다.
연구팀은 "여성과 남성의 주요우울장애 진단 정확도 차이는 학습 데이터세트에서 여성 참가자 수가 남성보다 훨씬 많았던 점과, 여성과 남성 간 말하기 패턴의 차이에서 기인한 것일 수 있다"고 설명했다.
이어 "지속해서 개선하면 LLM 모델을 우울증뿐 아니라 다른 임상·연구용으로 활용할 수 있는 저렴하고 실용적인 선별 도구로 개발할 수 있을 것"이라고 덧붙였다.
이보배 한경닷컴 객원기자 newsinfo@hankyung.com