수십억 단백질의 비밀 '머신러닝'으로 푼다…이미 680만개 해독
구글리서치 과학자들, 단백질의 아미노산 배열 보고 기능 추정하는 모델 개발
(샌프란시스코=연합뉴스) 정성호 특파원 = "플라스틱 재활용에 대해 얘기하자면 'PETAS'라 불리는 단백질과 관련해 많은 혁신적 발견이 이뤄졌는데 이 단백질은 플라스틱병을 말 그대로 먹습니다. 기후 변화 대처에 한 해법이 될 수 있죠."(구글리서치의 연구 과학자 루시 콜웰)
"식물은 대기 중에서 이산화탄소를 포집해 이걸 저장하는데 이걸 여러 겹의 다른 단백질들이 수행합니다. 이런 탄소 포집을 더 효율적으로 하는 엔자임(촉매 단백질)을 개발하는 작업이 진행 중인데 그렇게 되면 우리는 꼭 나무를 심을 필요 없이 어쩌면 이 단백질 농장을 만들면 될지도 모릅니다."(구글리서치 소프트웨어 엔지니어 맥스 빌레쉬)
구글에서 일하는 이들 과학자는 2일(현지시간) 화상회의로 열린 '단백질 발견' 프레스 브리핑에서 새로운 단백질의 기능을 규명하고 발견하는 일이 기후 변화 대처에 이런 파급효과를 낳을 수 있다고 말했다.
콜웰과 빌레쉬는 머신러닝을 이용해 다양한 단백질의 기능을 예측할 수 있는 모델을 개발한 뒤 이를 최근 과학저널 네이처 바이오테크놀로지에 발표했다.
이들 연구자에 따르면 지구상에는 수십억개의 단백질이 있지만 약 3분의 1은 그 기능을 모른다. 사람도 2만여개의 단백질을 갖고 있지만 일부는 그 기능이 베일에 싸여있다.
빌레쉬는 단백질을 작은 기계에 비유했다. 박테리아 같은 미생물부터 사람 같은 고등 생명체에까지 존재하면서 감염에 맞서 싸우는 일부터 학교에서 치른 시험에서 1등을 하는 일까지 많은 일들을 수행한다는 것이다.
이런 단백질의 기능을 파악하는 가장 좋은 방법은 화학자가 실험을 통해 밝혀내는 것이다. 그러나 비용이 크게 들고 시간도 많이 걸린다. 약 1%의 단백질만이 실험실을 통해 특성이 밝혀졌다.
과학계에선 이에 따라 컴퓨터를 이용해 단백질의 기능을 추정하는 방법도 개발했다. 그러나 여전히 한계가 있는 상황이다.
구글의 연구진은 이에 따라 머신러닝, 그중에서도 사진 속 물체가 무엇인지를 식별하는 데 쓰이는 나선형(convolutional) 뉴럴 네트워크를 이용해 단백질의 아미노산 배열을 보고 그 기능을 추정하는 모델을 개발했다.
빌레쉬는 "다르게 생긴 단백질을 보고 그 기능을 예측할 수 있는 모델을 만들었다"고 설명했다.
실제 이 모델을 이용해 단백질의 기능을 예측한 결과 전 세계 과학자들이 집대성한 단백질 정보 저장소인 'Pfam'에서 680만개의 단백질을 해독할 수 있었다고 빌레쉬는 말했다.
이는 최근 10년에 걸쳐 과학계가 해독한 것보다 더 많은 양이다.
빌레쉬는 "앞으로 이렇게 해독된 단백질 정보는 병을 치료하거나 새로운 식품을 개발하는 등 제약사나 의료진, 제조업자 등에게 매우 소중한 정보가 될 수 있다"고 말했다.
sisyphe@yna.co.kr
(끝)
<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>
뉴스