"사회과학·의생명학 논문 통계기준 허술…10배 강화해야"
세계 과학자들 "P값 기준치 0.05→0.005로 변경" 제안
(서울=연합뉴스) 임화섭 기자 = 심리학·사회학·경제학·경영학 등 사회과학과 의학·생명과학 분야 논문에 흔히 쓰이는 통계적 가설검정(假說檢定) 기준이 지나치게 허술하므로 이를 10배로 강화해야 한다는 제안이 유력 과학자들로부터 나왔다.
이는 논문 결과가 재현(再現)되지 않는 사례가 너무나 많아 연구 내용을 믿을 수 없게 된 '신빙성의 위기'가 학문 발전을 저해한다는 판단을 반영한 것이다.
1일 런던에서 발간되는 과학 학술지 '네이처'의 온라인 뉴스 서비스에 따르면 최근 대니얼 벤저민 미국 서던캘리포니아대 경제학과 교수, 존 요안니디스 스탠퍼드대 의대·통계학부 교수, 브라이언 노섹 오픈 사이언스 센터 대표 등 세계 과학계의 통계검정 전문가 72명이 이런 내용을 포함한 논문 초고를 온라인(https://osf.io/preprints/psyarxiv/mky9j)으로 공개했다.
이 논문은 수정과 심사가 완료되면 학술지 '네이처 인간 행동'(Nature Human Behaviour)에 실릴 예정이다.
이 논문의 제목과 초록(抄錄·논문 앞부분에 그 요지를 간략히 설명한 글)은 매우 이례적으로 간결하면서도 힘 있게 쓰여졌다. 지금처럼 허술한 기준이 통용되는 상황을 더 이상 참을 수 없다는 전문가들의 '결의'가 담긴 표현이다. 평범한 논문이라기보다 '결의문' 내지 '성명서'에 가깝다.
논문 제목은 '통계적 유의성(有意性)을 재정의(再定義)하라'(Redefine Statistical Significance)라는 세 단어로 돼 있다.
초록은 딱 한 문장이다. "새 발견을 주장하기 위한 P값의 문턱값(threshold)의 디폴트(기본으로 정해진 기준값)를 0.05에서 0.005로 변경할 것을 제안한다"는 것이다.
최근 수십년간 여러 학문 분야에서 논문들의 결론을 믿을 수 없는 '신빙성의 위기'가 심각하다는 지적이 있어 왔으며, 특히 사회과학이나 의생명과학 분야에서 이런 경향이 심했다.
여러 이유가 있지만, 연구자들이 통계검정을 허술하게 하더라도 심사를 쉽게 통과할 수 있는 이런 분야 학계의 관행과 기준이 큰 영향을 준 것으로 풀이된다.
이번 논문에 저자로 이름을 올린 전문가들은 일부 분야에서 현재 만연하고 있는 허술한 통계검정 관행을 억제하기 위해 관련 학계가 가장 손쉽게 취할 수 있는 방안이 P값의 문턱값을 0.05에서 0.005로 낮춰 잡는 것이라고 주장했다. 입증 기준을 지금의 10배로 강화하자는 것이다.
이들은 새로 제안된 기준인 0.005와 기존 기준인 0.05 사이의 P값이 나올 경우는 '입증'이 아니라 '시사하는 증거'(suggestive evidence)라는 용어를 쓰는 것이 타당할 것이라고 말했다.
원자 충돌 시험 등을 하는 입자물리학 분야에서는 오래 전부터 P값 기준을 3 × 10^(-7), 즉 0.0000003 미만으로 요구해 왔으며, 유전자 사이의 연관관계를 추적하는 유전학 분야도 10여년 전부터 5 × 10^(-8), 즉 0.00000005 미만을 P값 기준으로 삼고 있다고 이들은 지적했다.
이들은 일부 분야에서 P값의 문턱값이 너무 허술하게 설정돼 있다는 점 외에도, 더 큰 문제들이 많다는 점도 함께 지적했다.
예를 들어서 '시험할 가설을 미리 세워 놓고 결과를 얻어서 P값을 계산'하는 것이 건전하고 합당한 절차이지만, 이와 달리 결과를 먼저 본 다음에 여기에 맞춰 P값이 0.05 미만이 되는 가설을 사후에 만들어서 이를 '결론'으로 내세우는 등 행위가 연구의 신뢰성을 해친다는 것이다. 이런 방식은 'P 해킹'(P-hacking)이라고 불리며, 일부 분야에서 실제로 이런 관행이 근절되지 않고 있다.
논문 저자들은 연구자들이 실험이나 조사를 하기 전에 앞으로 사용할 분석 방법을 제3의 기관에 사전에 등록해 놓도록 하는 등 학문적 투명성을 높일 방법을 찾아야 한다고 강조했다.
<용어해설> P값
P값은 많은 학술 분야에서 실험이나 조사 결과를 바탕으로 수립된 가설의 '유의성'을 판단하는 데에 흔히 쓰이는 기준이다.
고등학교 수학의 통계 부분에도 '가설 검정', '귀무가설'(歸無假說), '대립가설'(對立假說), '유의수준'(有意水準) 등 관련 내용이 나온다.
많은 경우 '새로운 발견의 주장'이 대립가설의 형태로, 이에 맞서는 귀무가설은 대립가설이 사실이 아님을 가정한 형태로 세워진다.
예를 들어 "유전자 A의 보유 여부와 질병 B의 발병 여부 사이에 상관관계가 있을 것"이 '대립가설'이라면, "유전자 A의 보유 여부와 질병 B의 발병 여부는 무관할 것"이 '귀무가설'이 된다.
통계적 유의성 검정은 대개 미리 정해진 문턱값(유의수준)보다 P값이 작으면 귀무가설을 기각하고, 크면 귀무가설을 채택하는 방식으로 이뤄잔다.
P값의 기준인 문턱값이 작을수록 귀무가설을 기각하고 대립가설을 채택할 수 있는 요건이 까다롭다. '새로운 발견의 주장'을 더욱 엄격하게 테스트할 수 있다는 뜻이다.
(끝)
<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>
뉴스