지난 10년간 국제 심리학계를 뒤흔든 재현위기 (reproducibility crisis) 요약 (2편)

2023.03.26

13298

1편: https://phdkim.net/board/free/40393
3편: https://phdkim.net/board/free/40430

역시 김박사넷 사용자 분들이 학식수준이 높아서 그런지 이런글에도 관심을 가져 주시네요. 2편부터는 보다 테크니컬한 서술들이 포함되므로, 질문이 있다면 댓글로 남겨주세요 (답을 할 수 있을지는 모르지만…). 그럼 다음 이야기 마저 하겠습니다.

자칭 과학 경찰관들은 블로그를 만들며, 문제가 있어보이는 결과들을 마구잡이로 잡아내기 시작함. 앞서 말한 삼총사도, 그들의 블로그 DATACOLADA 에 여러 논문들의 비평과 문제점들을 싣지만, 원작자의 동의를 구하고, 해명도 들어보는등 최소한의 선은 지킴. 그렇지만 모든 블로그들이 그렇게 하진 않음. 블로거 (보통은 과학자) 본인이 스스로 특정 결론이 틀렸다고 생각하면 올리는데, 문제는 블로그에 올라간 내용은 피어리뷰가 되지 않아 그자체로 과학적이지 않다는 것. 그럼에도 학자들은 본인들이 타겟이 될까 두려워서 함부로 나서진 못했음.

몇몇 원로학자들이 이 문제점에 대해 지적을 했는데, 그들도 바로 실험의 대상에 올라감 (다행히 지적을 했던 학자들은, 실험결과 대부분 방법론에 큰 문제가 없다고 나옴)

2015년, 1편에 언급됐던 하버드의 Cuddy 교수가 참여한 논문 (2010; 권위적인 자세를 취하는것만으로 자신감이 증가한다는 주장) 을 재현하는것이 불가능하다는 논문이 출판됨 (*재현 할 수 없다는 것은, 같은 방법론을 썼을때, 같은 결과가 도출이 안된다는 말). 얼마 지나지 않아, 이 2010년 논문의 1저자였던 Carney 교수는, 본인도 이 논문의 결론을 믿지 않는다는 고해성사를 해버림.

그렇게 Cuddy 는 하버드에서 테뉴어를 받지 못하고, 학계에서 어느순간 사라짐 (다른분야에서 활동).

비슷한 시기에, questionable research practice 를 넘어, 아예 데이터를 조작하고 걸리는 일도 발생함. 이것들은 심리학에서 일어나는 crisis 를 관심있게 지켜보던 통계학자들에 의해 대부분 적발됨 (이분들은, 내용은 안보고 숫자만 보고 판단하심ㅋㅋ).
Result 부분의 표를 집중적으로 분석하면, 뭐가 틀렸는지 대강 알 수 있음. 설명하면 긴데, 핵심은 대충 이런거임. x와 같은 숫자들이 여러번 나올 확률을 통계적으로 계산, 그 확률이 말도 안되게 작으면 (ex., 0,001%) 그것은 조작됐을 확률이 높음.
몇가지 예를 들자면, 1)완전히 무작위여야 하는 데이터들 에서 일정한 패턴이 발견됨 (학자가 임의로 숫자를 만든것. 인간의 뇌안에선 완전한 무작위가 불가능하기에). 2)평균 또는 표준편차들이 너무 서로 비슷함. 3)통계결과와 연결된 p-value가 잘못 보고됨. F=3,48 일때, p=0,063 인데, p<0,001 이라고 써있음.

2011년에 발표된 논문 (Bakker & Wicherts, 2011) 에 의하면, 4077개의 심리학 논문중 통계적 에러가 1개이상 발견된 것이 54%, 그 에러가 논문의 방향성을 전환할 만큼 컸던것이 12%에 육박함.
그리고 Science 에 기제된 2015년 리포트에서는, 선택된 100개의 심리학 논문중 36개만이 재현에 성공했다고 보고함.

이때부터 학계에서는 방법론의 투명성 (transparency) 에대한 고찰이 시작됨.
원리는 간단함. Literature review 를 통해서 가설을 만들고, 그 가설을 증명할 방법론을 세운다음 (research protocol), 설정했던 그대로 분석을 실시해야함. 순서가 바뀌는 순간, 그것은 제대로 된 p 가 아니고, p-hack 된 p임.

이 모든 단계가 완벽히 투명하게 진행되어야 한다는 것. 이것이 open science (과정, 데이터, 결론 모두의 투명성 및 공유) 의 시작임.

하지만, 학자들이 지금까지 사기를 칠 의도로 p-hacking 을 했다고는 볼 수 없음. 실제로 그들은 학생때부터 p-hacking 을 하라고 배워왔음 (데이터 분석후, 결과가 무의미하게 나오면 이것도 해보고 저것도 해봐서 유의미한 결과가 나올때까지 돌려보라는 선배학자들의 가르침). 이것이 재현에 끼치는 영향을 이해하지 못한 것임.

왜 애초에 이런 관행이 생겼는가.
첫째는, 당연히 publish or perish 논리에 따라, 반드시 논문을 발표해야 하기 때문.
둘째는, 메이저 저널에서 오롯이 통계적으로 유의미한 결과만 accept 한다는 것 (통계적 무의미는, 과학적으론 유의미할 수 있는데도 불구하고).

다행히 (대부분의) 학자들은 근본적으로 선한 마음으로 진실을 추구함. 이러한 잘못을 인지하고,과거를 되돌아 보며, 미래의 "옳은" practice 에 대해 생각하기 시작함. 그리고 이러한 문제를 해결할 수 있는 해결책들이 차례로 제시됨. 개인적으로 과학계와 유사과학계의 차이점은 바로 이것이 아닐까 생각됨.

일단 심리학 이야기는 여기서 끝이고, 자연과학을 포함한 과학의 장 (community) 전반에서 이 open science 에 대한 결론 (또는 진행사항)이 무엇인지 궁금하거나, 혹시 참고하여 적용하실 분들을 위해 3편 재현위기에 대한 해답 편도 조만간 올림.

*참고설명: 왜 리서치내의 순서가 중요한가? 다시 말해, 인트로와 방법론을 먼져 쓰는것이 왜 재현에 영향을 미치는가? (통계학에 아직 익숙하지 않으신 분들을 위한 추가설명)

사회과학에서의 통계는 다 확률임. P-value (p<0.05) 가 의미하는 바는, 나의 결과가 우연이 아닌, 필연으로 나왔을 확률이 95퍼센트 이상이라는 뜻임. 바꿔말하면, 내가 20개의 분석을 돌리면 하나는 우연히 통계적으로 의미있는 값이 나온다는 것.
가설을 먼저 새우고, 그 가설을 공격하면, 한개만 돌리기때매 p<0.05 가 통계적 유의미 (95%)가 맞음.
그런데 가설이 증명될때까지 돌려보면 (예를 들어 30번), 0.95의 30승이 나옴. 즉 내 결과중 모두가 무의미하게 나올 확률은 0,95의 30승임 (다시말해, 오히려 유의미한 결과가 안나올 확률이 사실상 없어짐).

그렇기에, Confirmatory study (리서치를 처음부터 감독하고, 데이터 베이스를 만듬) 에서는 가설을 새우고, 방법론을 만들고 분석을 해야함. 그럼 첫 가설은 어디서 나오는가?
Exploratory study (confirmatory study 에서 만든 데이터 베이스에서 분석을 시작함) 에서는 가설없이 여러 분석을 해본다음, p<0.05 이하의 값을 찾아냄. 그다음 그것이 기존 이론과 어느정도 부합하면 가설로서 "suggest" 함. 그럼 그 가설이 다음 confirmatory study 의 배경이 되는 것. 그렇기에 이 경우, exploratory study 라고 반드시 써줘야함. 두가지 연구가 완전히 다른 방법론을 사용하기 때문임.

카카오 계정과 연동하여 게시글에 달린
댓글 알람, 소식등을 빠르게 받아보세요

댓글 6개

2023.03.26

흥미진진하네요.
심리학 문외한으로서 궁금한점이 있는데, nudge라거나 습관의 심리학 같은 심리학 서적들도 질못된 심리학 실험을 그대로 인용했을 가능성이 있나요? 꽤 흥미롭게 읽었는데 말이죠

대댓글 2개

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

바보같은 에르빈 슈뢰딩거*

2023.03.26

좋은 글 감사합니다!

2023.04.09

오 재밌다

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

댓글쓰기

게시판 목록으로 돌아가기

자유 게시판(아무개랩)에서 핫한 인기글은?

자유 게시판(아무개랩)에서 최근 댓글이 많이 달린 글

🔥 시선집중 핫한 인기글

최근 댓글이 많이 달린 글