생명과학과 인공지능(AI)의 만남이 만들어낸 역대 최고의 발명 중 하나를 꼽자면 단백질 구조를 분석하고 설계 및 예측할 수 있는 AI 개발이다. 올해의 노벨화학상은 계산적 방법의 단백질 설계법을 개발하고, 이를 응용해 새로운 단백질을 설계하는 ‘로제타’를 만든 데이비드 베이커 교수, 단백질 3차원 구조와 기능을 예측하는 ‘알파폴드’를 개발한 구글 딥마인드 최고경영자(CEO) 데미스 허사비스와 존 점퍼 구글 딥마인드 선임 연구원에게 돌아갔다.
단백질은 살아있는 모든 생명체를 형성하고 생명 현상을 조절하는 화학적 도구로, 20개의 아미노산이라고 하는 기본 단위로 구성된다. 단백질은 수십 개에서 수천 개의 아미노산이 긴 사슬 형태로 연속적으로 연결되고, 아미노산의 특성에 기반해 서로 꼬이고 접히면서 기능을 갖는 3차원 구조를 형성한다.
단백질 입체 구조를 분석할 수 있는 방법은 고순도의 단백질을 결정화하고 엑스선을 이용해 구조를 규명하는 엑스선결정학, 용액에 녹아 있는 작은 크기의 단백질의 구조를 분석하는 핵자기공명법, 그리고 단백질을 본연의 상태를 유지하면서 초저온으로 급속하게 얼리고 전자빔을 이용해 단백질 구조를 규명하는 초저온 전자현미경이 있다. 이런 방법들로 현재까지 해석된 단백질 입체 구조는 약 19만5000개로 단백질 데이터 뱅크에 등록돼 있다. 생체 내 기능을 수행하는 단백질의 입체 구조 정보는 단백질 구조를 설계하고 예측하는 AI의 학습에 중요한 데이터로 활용되고, 이를 통해 단백질 구조 예측 정확도를 높일 수 있다.
단백질 입체 구조와 기능을 예측하는 ‘알파폴드’는 현재 인간이 가지고 있는 2만여 개 단백질 구조를 예측할 수 있다. 또한 자연계에 존재하는 약 2억 개 단백질 모델 구조를 생성하고, 알파폴드 단백질 구조 데이터베이스에 접속해 단백질 예측 구조에 이용할 수 있도록 제공한다. 알파폴드가 높은 정확도로 단백질 구조를 예측한다는 점은 혁명적인 일이다. 하지만 실제 알파폴드로 예측된 단백질 예측 구조가 실험적으로 해석된 생체 내 단백질 구조와 다른 경우도 발견되기 때문에 알파폴드의 단백질 모델 구조 활용에서 실험적 증명도 함께 병행돼야 한다.
AI를 활용한 단백질의 구조 예측은 자연계에 존재하는 단백질에 국한되지 않고, 기존에 존재하지 않았던 새로운 단백질을 설계할 수 있는 길을 마련했다. 베이커 교수 그룹이 개발한 ‘로제타’는 원하는 단백질 구조를 제시하고, 제공한 단백질 입체 구조에 맞는 아미노산 서열을 결과로 얻는 새로운 방법을 적용할 수 있었다. 2021년 인플루엔자 바이러스를 모방한 단백질을 활용해 새로운 백신을 개발하며 이를 증명했다. 인간이 새롭게 디자인해 만들어내는 인공단백질 설계 분야의 활성화는 앞으로 산업에 필요한 효소 단백질, 치료제와 백신 개발 등 여러 분야에 활용될 것이다.
그동안 단백질의 입체 구조를 해석하는 전문가들은 거대복합체와 세포막에 존재하는 막단백질의 생산 및 결정화가 매우 어려워 입체 구조를 규명하는 데 많은 한계점을 가져왔다. 최근 초저온 전자현미경을 이용한 입체 구조 해석 방법은 이런 문제점을 극복하고 실험적으로 확보된 단백질 입자의 구조 데이터, AI를 활용한 데이터 처리, 그리고 알파폴드의 입체 구조 모델을 활용해 보다 빠르고 정확하게 단백질의 입체 구조를 해석하는 길이 마련됐다. 단백질 입체 구조 연구와 AI의 융합은 세포 내에서 일어나는 역동적인 생명 현상을 고해상도로 분자 수준에서 해석하는 데 활용될 것이다.