기초과학연구원(IBS)은 수리 및 계산과학 연구단 의생명수학그룹이 수학 모델을 기반으로 시계열 데이터 인과관계를 추정하는 새로운 방법론을 개발했다고 26일 밝혔다.
시계열 데이터는 경제 통계 전반과 일기 예보 등 자연과학 연구, 의학 분야 등에서 쓴다. 최근엔 스마트 워치 등 웨어러블 기기를 통해 일상에서 생체 데이터를 수집할 수 있게 되면서 의학 분야에서 시계열 데이터 중요성이 커지고 있다.
시계열 데이터에서 인과관계를 추정하는 대표적 방법은 2003년 노벨경제학상 수상자 클라이브 그레인저 미국 UC샌디에이고 교수가 제시한 '그레인저 인과관계 검정'이 있다. 이 검정은 미래 경제지표 예측, 질병 요인 분석, 지구 온난화 원인 분석 등 많은 분야에서 활용한다. 그러나 이런 검정법은 시계열 데이터가 비슷한 주기로 변하는 동시성만 갖는다면 인과관계가 있다고 잘못 예측하는 경우가 많다. 직접적 인과관계와 간접적 인과관계를 혼동하기도 한다.
이런 한계를 극복하기 위해 수리 모델을 기반으로 한 방법론이 개발되고 있다. 예를 들면 이산화탄소 배출량이 지구 온난화에 얼마나 영향을 주는지 알기 위해선, 관련 변수가 어떻게 지구 평균기온에 영향을 주는지 수학적으로 표현한 상미분방정식을 만든다. 그리고 실제 관측 데이터와 상미분방정식의 해를 일치시키는 과정에서 이산화탄소 관련 변수 상태를 따져 이산화탄소 배출량이 지구 온난화에 영향을 준다고 결론을 내리게 된다.
IBS 의생명 수학 그룹을 이끄는 김재경 KAIST 수리과학과 교수는 기존 수리 모델 기반 인과관계 추정 시간을 줄인 새로운 방법론 'GOBI(General ODE Based Inference' 를 선보였다.
연구팀은 시계열 데이터가 일반적 수학 모델로 표현될 수 있는지 확인할 수 있는 수학 이론을 만들고, 이 이론을 바탕으로 복잡한 계산 없이도 시계열 데이터에서 인과관계를 추정하는 방법론을 개발했다.
이 방법론은 세포 내 분자들의 상호작용, 생태계 네트워크, 기상 관련 시스템 등 다양한 분야 인과관계 분석에 활용할 수 있다고 연구팀은 설명했다. 예를 들면 이산화질소와 호흡기로 유입되는 10마이크로미터 이하 부유 미립자가 심혈관계 질환을 유발한다는 것을 이 모델을 통해 확인할 수 있다.
김 교수는 "수학과 통계를 결합해 다양한 시스템에 유연하게 적용할 수 있는 새로운 인과관계 추정 방법론을 개발했다"며 "사회과학, 자연과학 분야에 두루 사용할 수 있을 것"이라고 말했다. 연구결과는 국제학술지 네이처커뮤니케이션즈에 실렸다.
이해성 기자 ihs@hankyung.com