질병 유전자 찾아내는 강력한 통계 알고리즘 개발
UNIST 남덕우 교수팀, 예측력 2배 이상 높인 분석법 개발
(울산=연합뉴스) 장영은 기자 = 유니스트(UNIST)는 생명과학부 남덕우 교수팀이 최근 질병 유전자 후보군을 정확하게 많이 찾아내는 통계 알고리즘(GSA-SNP2)을 개발했다고 26일 밝혔다.
개발한 알고리즘은 1만 명 이하의 적은 유전체 데이터만 있어도 효과적으로 작동한다.
질병 유전자 후보군을 발굴하는 비용과 시간을 크게 줄일 방법으로 주목받고 있다.
남 교수는 "몇천 명 단위에서도 의미 있는 유전자 그룹을 찾아낼 수 있는 저비용 고효율 통계분석 도구"라며 "이 알고리즘으로 신약 개발을 위한 유전자 표적을 발굴하거나 질병에 대한 이해를 더 빠르게 진행할 수 있다"고 설명했다.
유니스트에 따르면 사람의 DNA 염기서열은 조금씩 다르게 나타난다.
염기서열 차이를 '스닙(SNP)'이라고 하고, 대규모 유전체 데이터를 통계적으로 분석하면 특정 질병과 관련된 스닙을 찾을 수 있다.
천문학적인 비용과 시간을 들여서 데이터를 만들어도 현재 사용하는 통계분석 방법들은 유의미한 스닙을 많이 찾지 못한다.
수만 명의 유전형 데이터를 생산하고, 수십만에서 백만 개 이상의 스닙을 대상으로 분석해도 질병 유전자 후보군 수십 개 정도를 얻는 데 그친다.
남 교수팀은 통계적 예측력을 높이는 알고리즘 개발을 목표로 이를 위해 '유전자 그룹(pathway) 상관관계 분석법'을 활용하면서 유전자 스코어에 '큐빅 스플라인(cubic spline)'이라는 수학적 보정을 적용했다.
유전자 그룹은 특정 기능을 수행하는 데 관여하는 유전자 집단이다.
이들은 수백에서 수천 가지 그룹으로 선별돼 데이터베이스로 정리돼 있다.
이 정보를 이용하면 개별 스닙 비교에서 놓친 의미를 새롭게 찾을 수 있다.
남 교수팀은 이 기법을 쓰면서 이미 질병과 상관관계가 높게 나타난 스닙은 제외하고 유전자 스코어를 보정함으로써 통계적 예측력을 높였다.
남 교수는 "질병 유전자 후보로 강하게 판단되는 스닙을 빼면 임의의 유전자 분포를 얻게 된다"며 "이 상태에서 다시 통계적으로 유의미한 걸 찾아내도록 설계했기 때문에 기존 방법보다 2배 이상 예측력이 높아졌다"고 설명했다.
이어 "새로운 통계 알고리즘을 적용하면 다양한 질병 유전자 그룹을 많이 발굴할 수 있을 것"이라며 "신약개발 또는 스닙 분석 관련 연구기관이나 기업에서 활용하면 질병 치료에 기여하는 유용한 도구가 될 것"이라고 덧붙였다.
young@yna.co.kr
(끝)
<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>
뉴스