
의료 인공지능(AI) 도구가 일부 진단과 치료에서 인간 의사보다 높은 정확도를 보였다는 연구 결과가 나왔다. AI가 의료 현장의 보조 수단을 넘어 임상 판단 영역까지 파고들고 있다는 분석이 나온다.
17일(현지시간) 파이낸셜타임스(FT)에 따르면 독일 연구진이 개발한 의료 AI ‘미라(Mira)’는 췌장암과 폐렴 등 다양한 질환 진단에서 의사들을 앞섰다. 구글이 개발한 ‘에이미(Amie)’도 치료 및 검사 계획 수립에서 의사보다 더 정확한 결과를 제시했다. 해당 연구 결과는 국제학술지 네이처에 실렸다.
미라는 전자의무기록(EHR) 데이터를 바탕으로 검사 지시와 약물 처방, 시술 일정 결정 등 다양한 의사결정을 내리도록 설계된 모델이다. 연구진이 응급실 사례 500여건을 대상으로 성능을 평가한 결과 충수염, 폐색전증 등 8개 질환에 대한 평균 진단 정확도는 87.1%를 기록했다. 의사 6명으로 구성된 평가단의 정확도(78.1%)를 크게 웃도는 수준이다.
미라 공동 개발자는 “AI가 의료를 어떻게 변화시킬 수 있는지 미리 보여주는 사례”라며 “항공기의 자동조종장치처럼 의료진의 반복 업무를 줄이고 지원할 수 있다”고 말했다.
구글의 에이미는 생성형 AI 모델 제미나이를 기반으로 개발됐다. 연구진은 영국의 최신 임상진료지침을 반영한 100개 진료 시나리오를 토대로 에이미와 의사 21명의 판단을 비교했다. 그 결과 에이미는 환자 관리와 치료 계획 수립 능력에서 의사들과 비슷한 수준을 보였다. 특히 복잡한 사례에서는 약물 처방 관련 추론 능력이 더 뛰어난 것으로 평가됐다.
다만 전문가들은 이번 실험이 통제된 환경에서 이뤄진 만큼 실제 의료 현장 적용까지는 추가 검증이 필요하다고 강조했다. 실제 응급실에서 빈번하게 발생하는 환자의 정보 누락이나 진술 불일치 등의 문제가 충분히 반영되지 않았다는 것이다. 캐서린 포프 영국 옥스퍼드대 의료사회학 교수는 “이번 연구는 실제 의료 현장의 복잡하고 예측하기 어려운 상황과는 거리가 있다”고 평가했다.
연구진 또한 두 모델 모두 한계를 안고 있다고 인정했다. 에이미 개발진은 “에이미가 유망한 성능을 보여줬지만 실제 의료 현장에 즉시 적용할 단계는 아니다”라며 “잠재적인 추론 오류를 줄이기 위한 추가 연구가 필요하다”고 밝혔다.
웨이 싱 영국 셰필드대 조교수는 “에이미의 경쟁력이 시스템 자체의 특성 때문인지 최근 범용 AI 모델 전반의 성능 향상에 따른 결과인지 추가 검증이 필요하다”며 “에이미의 우위가 의료 특화 설계보다는 AI 기술 전반의 발전을 반영한 결과일 가능성도 있다”고 말했다.
한명현 기자 wise@hankyung.com