환자의 세포를 건강한 사람의 세포와 비교해 임상 응용에 적용할 수 있는 새로운 인공지능(AI) 알고리즘이 개발됐습니다. 이를 활용하면 의료진이 환자가 겪고 있는 질병의 세포를 정확히 파악해 맞춤형 치료를 할 수 있을 것으로 기대됩니다.
이 알고리즘은 세포군이 아닌 개별 세포 차원에서 세포를 분석하는 ‘단일 세포 분석’에 기반하고 있습니다. 연구진에 따르면 신종 코로나바이러스 감염증(코로나19)에 감염된 폐 세포도 정확하게 찾아낼 수 있다고 하니 향후 접목 사례가 주목됩니다.
독일 헬름홀츠 연구소와 뮌헨 공대(TUM) 연구진은 최근 모든 단일 세포에 대한 데이터를 포괄적으로 통합할 수 있는 ‘포괄적 시스템(Comprehensive system)’을 개발했다고 밝혔습니다. 이 시스템의 핵심은 의료진이 하나의 시스템으로 단일 세포를 구분할 수 있게 머신러닝과 AI를 도입한 ’스카치(scArche)’라는 알고리즘입니다.
단일 세포에 대한 연구의 중요성은 점차 부각되고 있습니다. 암과 같은 질병의 발병은 단일 세포 수준에서 시작되는데요, 단일 세포를 통해 전사체(세포에서 발현된 RNA의 총합)에 대한 정교한 연구가 진행된다면 질병 치료에 큰 도움이 될 수 있기 때문입니다. 2016년 10월부터 세계 의료 권위자들이 뭉쳐 인간의 모든 세포를 단일 세포 수준으로 이해하기 위해 단일 세포 데이터를 통합시킨 세계 최대 단일 세포 지도 ‘인간세포지도(Human Cell Atlas·HCA)’가 그 사례입니다.
단일 세포에 대한 연구는 HCA와 같이 참조할 수 있는 원본 빅데이터가 필요합니다. 단일 세포 관련 다량의 데이터가 통합된 빅데이터가 있어야만 질병에 감염된 단일 세포를 찾아낼 수 있기 때문입니다. 다만 이렇게 데이터를 한 데 모아놓은 빅데이터는 실제 의료 현장에선 사용하기 어려웠습니다. 빅데이터가 각기 다른 실험 및 의료 환경에서 수집된 탓에 '표본 오류'가 발생할 수 있기 때문입니다. 또한 데이터엔 일반 환자의 개인 정보가 담겨 있는 만큼 이를 치료 목적으로 활용하기엔 상당히 까다로웠다는 게 연구진 측의 설명입니다.
다만 연구진이 이번에 개발한 스카치는 이러한 빅데이터의 한계점을 극복합니다. 스카치는 AI를 활용해 전이학습(Transfer learning)을 사용하는 게 가장 큰 특징입니다. 전이학습은 AI가 기존에 만들어진 모델을 사용해 새로운 모델을 만드는 방법인데요, 이를 활용해 참조 빅데이터를 기존과는 다른 새로운 형태로 변형시켜 프라이버시 문제가 자연스레 해결된다는 게 연구진 측의 설명입니다. 여기에 ‘매개변수 최적화’ 방식을 적용해 의료진이 방대하고도 다양한 형태의 빅데이터를 손쉽게 다룰 수 있게 됐다고 합니다.
연구진 측은 스카치를 실제 의료 현장에 시험 적용한 결과 의료진이 빅데이터를 참조하는 경우가 크게 늘었다고 설명했습니다. 연구진 측은 “우리의 목표는 인류가 손쉽게 단일 세포 참조를 사용할 수 있게 돕는 것”이라며 “스카치는 의료진들의 단일 세포에 대한 조회 프로세스를 간단히 하기 위해 만든 솔루션”이라고 했습니다.
연구진에 따르면 스카치는 코로나19 치료에도 도움이 될 전망입니다. 연구진은 스카치를 활용해 코로나19 환자의 폐 단일 세포 전사체와 건강한 사람의 참조 데이터와 비교하는 실험을 진행했는데요, 그 결과 스카치는 경증 및 중증 환자 모두에게서 코로나19 감염 세포를 분리할 수 있었다고 합니다.
이러한 연구 결과는 과학 분야 국제 학술지 네이처 바이오테크놀로지에 ‘전이 학습에 의한 참조 아틀라스에 단일 세포 데이터 매핑’이라는 제목으로 게재됐습니다.
배성수 IT과학부 기자