about Ecomomics

통계의 함정 by 케르트 기거렌처, 발터 크래머, 토마스 바우어

hoyony 2020. 2. 21. 17:12

2017. 05. 25, 율리시즈


상어 공격 : 2010년에 비해 2배 증가 <포쿠스 온라인>에 나온 이 뉴스가 바닷가에서 휴가를 보내려는 사람들에게 큰 충격 전파. 실제 2010년 상어 공격으로 목숨을 잃은 사고는 6건. 2011년에 12명. 리스크의 절대적 증가는 6명이지만 상대적 증가는 2배 또는 100%. 상대적 리스크는 시선을 끌고 사람들을 불안하게 만들 수 있음. 


상관관계와 인과관계

지방마다 황새 둥지가 많으면 아이가 많이 태어나고 황새 둥지가 적은 곳에서는 아이도 적게 태어난다는 말이 있다. 하지만 황새가 아이를 가져온다는 것을 어떻게 증명? 그보다 이 관계는 제3의 변수(마을의 규모)에 원인. 마을이 커서 주택이 많으면 지붕이 많고 그에 따라 황새가 둥지를 틀 곳도 많다. 동시에 가임 연령 여성도 많을 것이고 아기도 많이 태어날 것임. 

어떤 사건이 원인이고 어떤 사건이 결과라고 누가 말하는가? A가 B에 영향을 주고 동시에 B가 A에 영향을 주는 일은 흔하다. 이것은 양면적 인과관계. 

유전자 변형 옥수수가 암을 유발한다는 보도. 장기간 유전자 변형 옥수수를 먹은 쥐들의 건강이 심하게 악화. 하지만 통계적 관점에서는 엉터리. 겨우 10만 마리의 쥐만 조사. 숫자가 너무 적으므로 암에 따른 죽음은 아주 쉽게 우연을 통해 편차가 생길 수 있다. 이것은 유전자 변형 옥수수 비율이 가장 높은 사료를 먹은 쥐의 집단이 실제로 생존율이 가장 높았다는 데서도 알 수 있음. 
만일 우리가 유전자 변형 옥수수 연구 방식처럼 한다면, 사탕을 빨아도 암에 걸린다는 것을 증명 가능. 요즘 독일인 10명중 3명은 암으로 사망. 물론 사탕을 먹는 사람 10명을 임의로 고른다면 이 중 3명이 암으로 죽는 일은 아주 드물 것. 실제 암으로 사망하는 사람은 0과 10 사이를 오락가락 할 것임. 

암의 위험성이 커지고 있으며 가장 흔한 사망의 원인. 최근 세계보고서가 위협적인 상황을 막기 위해 국가가 나설 것을 요구. 하지만 이런 수치는 비극적이기는 하지만 원칙적으로는 기뻐할 일. 특정 국가 특정 지역에서 암 사망자나 암 환자가 많을수록 그곳 사람들은 더 오래 살고 기대수명으로 측정되는 환경의 질이 올라가며 그만큼 위생가 의료 수준이 높다는 것을 의미. 
세계에서 기대수명이 가장 높은 나라는 일본과 스위스, 동시에 암으로 사망할 확률이 높음. 남아프리카에서는 평균 50세밖에 못 살며 암 사망률은 10% 미만. 
또한 전체적으로 늘어나는 사망률에 대한 가장 중요한 원인이 80세 이후까지의 삶이 늘어났다는 사실이며 이에 대해서는 마땅히 기뻐할 일. 50세의 미국 남성 5명 중 1명은 전립선암, 이 남자들이 10년을 더 산다면 비율은 5명 중 2명으로 늘어나며 70세가 넘으면 5명 중 3명, 80세가 넘을 경우에는 5명 중 4명까지 수치가 늘어남. 그래도 전립선암으로 사망하는 사람은 약 3% 정도. 암이 걸린 상태에서 죽을 수는 있지만 암으로 죽지는 않는다는 말. 

아침식사를 하지 않으면 심장질환의 위험성이 커진다? 아침식사를 거르면 심근경색이나 심장사의 위험성이 27% 올라간다는 사실이 미국 현장연구에서 밝혀졌다. 사실 여기서 인용한 미국 연구에는 아침 식사를 거르는 습관과 심근경색은 독립적으로 발생할 때보다 함께 발생하는 때가 더 많다는 결과가 나왔을 뿐. 특히 중년 독신남에게서 이 관계가 두드러진다고 하는데 이들이 유난히 심근경색의 빈도가 높은 것은 더 나이가 든 남자보다 아마 개인적으로나 직업적으로 스트레스를 더 많이 받기 때문일 것. 오히려 이런 이유로 아침을 자주 거르고. 

지나친 패스트푸드 소비가 우울증을 낳는다? 스페인의 연구결과를 요약한 보도. 특히 주당 근무시간이 45시간이 넘고 평소 활동량이 적으며 전체적으로 영양 상태가 불량한 독신자가 위험하다고 함. 패스트푸드는 적어도 우울증이 식욕을 억제하므로 반대의 인과관계가 성립될 수 있음. 

역학적 인식은 실험 대신 관찰연구를 토대로. 특히 두 인간 집단을 연구하는 코호트 연구(특정 요인에 노출된 집단과 노출되지 않은 집단을 추적, 연구대상 질병의 발병률을 비교하여 요인과 질병 발생 관계를 조사하는 방법)에 의존. 예를 들어 실업자는 우울증에 더 잘 걸리는가? 잦은 디스코텍 출입은 청각을 손상시키는가? 줄담배를 피우는 사람은 폐암에 잘 걸리는가? 그리고 결과를 보면 줄담배를 피우는 사람은 실제로 폐암에 많이 걸리고 따라서 흡연은 암의 원인이라고 결론내리는 식.
이런 주장의 배후에는 함정이 있을 수 있음. 
우울증에 걸려서 일자리 찾기가 힘든 것은 아닐까? 또 (전제를 받아들인다며) 청각이 손상된 사람만이 디스코텍의 소음을 견디는 것인지도 모른다. 설사 흡연과 암의 인과관계가 논란의 여지가 없다 해도 누구나 믿을 만큼 분명한 것은 절대 아니다. 예를 들어 많은 연구결과는 살인사건의 피해자나 버스에 치여 죽는 사람 중에도 흡연자가 많다는 것을 보여주는데, 같은 이유로 흡연자들이 왜 담배를 즐기는지 추정 가능. 그들은 리스크를 낙관적으로 보기 때문. 다시 말해 과도한 흡연으로 기대수명이 평균 10년 줄어든다고 할 때, 이 책임을 오로지 흡연에만 돌릴 수 없다는 것. 

사이언스에서는 커피와 췌장암이 상관관계가 있다고 주장. 커피를 마시면 췌장암의 위험이 높아진다고 결론. 이후 실험에 참여한 커피 집단 중에 흡연자들이 평균 이상으로 많이 포함되었다는 사실을 파악. 즉. 암 발병률이 올라간 것은 커피가 아니라 흡연 때문. 

90년대 유행한 가금류에 대한 히스테리도 배경 변수를 고려하지 않은 결과. 가금류 관리인이 일반주민보다 폐암으로 사망할 확률이 7배나 높다고 보도. 하지만 후속 연구는 그리 높은 사망률은 가금류 때문이 아니라 조류를 좋아하는 사람들은 대개 사회적으로 하층계급에 속하고 이들 중 흡연자가 많기 때문이라는 것. 

정보 왜곡과 조작에 성공적으로 대처하는 방법

1. 각각의 통계를 만든 사람이 누구인지, 거기서 노리는 목표가 무엇인지 항상 의문을 품어라. 단순히 어떤 사실을 밝히려는 것인가, 아니면 통계를 조작하여 특정 의견이나 결과를 팔려는 것인가?
2. 상관관계와 인과관계를 혼동하지 마라. 2개의 변수가 체계적으로 한 방향에 있을 때는 세 가지 결과 가능. 첫 번째 변수가 두 번째 변수의 원인이 되거나 두 번째 변수가 첫 번째의 원인이 되거나 아니면 둘 다 서로 원인이 되지 않는 경우.
3. 제로 리스크 환상을 피하라. 리스크가 있는가?가 아니라 리스크는 얼마나 되는가?를 물어라.
4. 끊임없이 리스크의 절대값을 물어라. 상대적인 리스크는 증가든, 감소든 착오로 이어지기 마련. 
5. 퍼센트의 방향에 주목
6. ‘과학적으로’ 또는 ‘유의미한’이라는 형용사의 남용을 조심. 
7. 표본조사에서는 표본으로 누가 파악되는지, 특히 누가 파악되지 않는지 물어라. 쾰른 성당의 성탄절 자정미사에 참석한 사람 90%가 낙태 합법화에 반대한다고 할 때, 그것은 전체 독일 국민의 의사가 아니다.
8. 증가율을 절대 산술적인 수치로 생각하지 마라. 60% 이상과 50% 이하의 평균은 5%가 아니다.
9. 통일된 기준에 주목. 누가 환자고 누가 실업자인가? 개념 규정에 따라 결과는 전혀 달라진다.
10. 경제생활이나 사회생활은 물론이고 일상생활에서도 우연이 큰 역할. 우리가 안다고 믿는 많은 기준은 전혀 기준이 되지 못한다. 전체를 반복하면 그 기준은 사라진다.