
• 통계학은 어디에 쓰일까?
통계는 고성능 무기와 같아서 올바로 이용되면 유익하지만,잘못 쓰이면 치명적인 재앙을 불러올 수 있다.
지니계수는 공정한가
스포츠나 날씨나 학점에 관해 아주 편안하게 이야기를 나누던 사람들이 소득불평등을 측정하는 경제학의 표준도구인 지니계수 같은 것의 설명을 듣기 시작하면 매우 불편해한다.지니계수는 복잡한 정보들을 표현하는 간편한 도구이다.만약 한 국가 내의 모든 가구가 동일한 부를 소유하고 있다면 지니계수는 1이 된다.쉽게 추측할 수 있듯이,어느 국가의 지니계수가 1에 가까울수록 부의 분배는 더욱 불평등한 상태이다.
부분을 보고 전체를 추론하다
통계학의 주요 기능 중 하나는 정보를 다 갖고 있지 못한 상태에서 현재 가진 데이터를 사용해 비교적 큰 물음에 대해 좀 더 잘 추측하는 것이다.간단히 말해서 '미지의 세계'를 추론하기 위해 '알려진 세계'에서 나온 데이터를 사용하는 것이다.
확률로 리스크를 예측하다
불확실성에 직면한 기업들도 엔지니어링 프로세스로 리스크를 관리할 수 있다.이를 통해 환경 재앙에서 제품 결함에 이르기까지 어떤 부정적인 결과든 그 확률을 수용가능한 낮은 수준이 되도록 만든다.
통계라는 이름의 탐정
흡연은 암을 일으킬까?
복잡한 방법론은 다 생략하고,20년 뒤 동창회에 나온 사람들을 대상으로 졸업하고 나서 담배를 피워온 사람과 그렇지 않은 사람들의 암 발생률을 비교하면 어떨까?만약 흡연자들이 20년후 동창회에서 특히 건강하지 못했다면,그 원인이 흡연 때문인지,아니면 많은 흡연자들이 흔히 하는 다른 건강치 못한 습관들 때문인지 알 수 없다.
통계학을 배워야 하는 궁극적인 이유
통계학의 궁극적인 목적은 수학 그 자체에 있다거나,앞선 통계적 기술로 친구와 동료들 앞에서 으쓱데는 데 있지 않다.통계학의 쓰임새는 우리 생활에 유용한 정보를 제공하는 데 있다.
• 방대한 양의 데이터를 요약하기 위해서
• 보다 나은 의사 결정을 위해서
• 중요한 사회적 질문에 대답하기 위해서
• 기저귀 판매부터 범인 검거에 이르기까지 일을 보다 잘 할 수 있는 패턴을 알아보기 위해서
• 사기꾼을 잡고 범인을 기소하기 위해서
• 정책,프로그램, 약, 의료처치, 기타 혁신의 효과를 높이기 위해서
• 비윤리적인 목적을 위해 이런 강력한 도구를 이용하는 악당을 발견하기 위해서
평균을 좌우하는 이탈값과 변함없는 중앙값
분포의 '중간'을 알아내는 가장 기본적인 측정방법은 평균이다.평균이 '중간'을 의미한다고 하기에는 약간의 문제가 있다.평균은 중심권에서 멀리 떨어져 있는 '이탈값'에 의해 왜곡되기 쉽다.
이 개념을 이해하기 위해 시애틀 중산층이 주로 찾는 술집의 기다란 테이블에 놓인 위자에 열명의 사람들이 앉아있고 그들의 연평균 소득은 3만 5천 달러이다.그때 빌게이츠가 술집 안으로 들어와 11번째 테이블에 앉으면 손님들의 평균 연 소득은 9100만 달러로 올라간다.이 술집에 있는 손님들의 평균 연소득이 9100만 달러라고 말한다면,이 말은 통계상으로는 맞지만 큰 오해를 불러일으킬 것이다.빌게이츠가 들어와 의자에 앉아도 열한명의 연소득 중앙값은 여전히 3만 5천달러이다.의자에 앉은 사람부터 순서대로 줄 세운다고 상상해보면,여섯번째 앉은 사람의 소득이 이 그룹의 소득 중앙값을 나타낸다.
평균으로부터 흩어져 있는 정도,표준편차
뒤죽박죽으로 보이는 숫자들을 기술하는 또다른 통계치가 표준편차인데,데이터가 평균에서 얼마나 흩어져 있는지를 나타내는 척도이다.표준편차는 분산도를 측정하는 것으로, 조사대상이 평균 주위에 얼마나 빽빽하게 모여 있는지를 나타낸다.일반적 데이터 분포에서는 관찰값 대부분이 평균과 1표준편차 범위 내에 있다.이는 관찰값들이 평균을 기준으로 1표준편차 위아래 범위 안에 있다는 의미이다.
평균을 중심으로 좌우 대칭을 이루는 정규분포
정규분포의 장점은 관찰값들이 평균의 1표준편차 범위에 속하는 비율(68.2퍼센트), 그리고 나머지 범위에 속하는 비율에 대해서도 정해진 수치가 있다는 사실이다.
평균과 중앙값의 함정
평균은 관찰값의 합을 관찰값의 개수로 나눈 단순평균이다(예를 들어 3,4,5,6,102의 평균은 24이다).중앙값은 분포의 중간에 있는 값으로, 관찰값 절반이 그 위에 있고 나머지 절반은 그 아래에 있다(예를 들어 3,4,5,6,102의 중앙값은 5이다).따라서 이 숫자 집단이 커 보이도록 기술하고 싶다면 평균에 초점을 맞추면 된다.반대로 작아보이게 하고 싶다면 중앙값을 인용하면 된다.
정확성을 높이기 위해 중앙값과 평균 중 어느 것을 선택해야 하는지에 대한 판단의 기준은 이탈값이 전체적인 기술을 왜곡하는지,아니면 전달하고자 하는 메시지의 중요한 일부인지에 달려있다.다시 말하지만 판단력이 수학보다 중요하다.
수치 비교의 함정
2011년 기준으로 미국 내에서 지금껏 가장 큰 매출을 올린 영화 다섯편은 무엇일까?
1. 아바타(2009)
2. 타이타닉(1997)
3. 다크 나이트(2008)
4. 스타워즈 에피소드 4(1977)
5. 슈렉 2(2004)
과거와 현재의 흥행성적을 비교하는 가장 정확한 방법은 영화표 매출액을 인플레이션을 감안하여 조정하는 것이다.실질 수치로 비교하면 <아바타>는 14위, <슈렉 2>는 저만치 31위로 떨어진다.
통계의 가장 큰 역할은 시간에 따른 수치의 변화를 기술하는 것이다.세금은 오르고 있는가?식수의 비소 함유량을 얼마나 낮추었는가?이러한 변화를 표현할 때 규모와 맥락을 이해할 수 있다는 점에서 주로 백분율이 사용된다.식수에서 비소가 22퍼센트 줄어들었다는 것이 어떤 의미인지는 이해할 수 있지만, 비소가 1마이크로그램 줄었가는 것이 획기적인 변화인지 아닌지는 알기 어렵다.
넷플릭스는 내가 좋아하는 영화를 어떻게 찾아낼까?
넷플릭스는 나를 모른다.하지만 내가 과거에 무슨 영화를 재미있게 봤는지는 안다.내가 봤던 영화들에 평점을 주었기 때문이다.넷플릭스는 이 정보와 함께 다른 회원들이 매긴 평점과 고성능 컴퓨터를 활용하여 나의 취향을 깜짝 놀랄만큼 정확하게 예측한다.
상관관계는 두 가지 현상이 서로 관련괴어 있는 정도를 측정한다.키와 몸무게의 관계처럼 한 변수의 변화와 같은 방향으로 연관된다면, 두 변수 사이에는 양의 상관관계가 있다.운동과 몸무게의 관계처럼 한 변수의 양의 변화가 다른 변수의 음의 변화와 연관되는 경우에는 음의 상관관계가 있다.
DNA 샘플로 유죄를 입증할 수 있는가
애리조나 주의 과학수소연구소 분석가가 주 DNA 데이터베이스를 검사하던 중 혈연이 아닌 두 명의 강력범 DNA에서 아홉개의 유전자좌가 일치하는 것을 발견하자,여러가지 문제가 제기됐다.FBI에 따르면, 관련이 없는 두 사람 사이에서 아홉개의 유전자좌가 일치할 가능성은 1,130억분의 1이라고 한다.그 후 다른 DNA 데이터베이스를 검색한 결과, 아홉개 이상의 유전자좌가일치하는 사람들이 1,000쌍 넘게 발견되었다.DNA 분석이라는 놀라운 과학도 그 확실성을 뒷받침하는 확률만큼만 유효하다는 사실이다.
확률을 다루는 사람들의 흔한 실수들
A. 독립적이지 않은 사건을 독립사건으로 추정
B. 독립적인 사건에 대한 이해부족
C. 암 다발지역의 우연성
D. 검찰의 오류
E. 평균회귀 . 운동선수나 팀이 <스포츠일러스트레이티드> 표지에 등장하면 그 후 성적이 떨어진다는 '스포츠일러스트레이티드 징크스'라는 것이 있다.그 이유에 대한 설명 중 하나가 잡지표지에 등장했다는 사실이 다음 경기에 부정적인 영향을 주기 때문이라는 것이다.이보다 통계적으로 깊이있는 설명은 운동선수나 팀이 20연승처럼 이례적인 성적을 거두었을 때 표지에 실리기 마련이고, 그다음부터는 그저 정상상태, 즉 평균으로 돌아가기 때문이라는 것이다.이는 평균회귀라고 알려진 현상이다.
F. 통계적 차별. 우리는 매일 점점더 많은 일에 관해 많은 정보를 얻고 있다.만약 이런 데이터가 틀리는 경우보다 맞는 경우가 훨씬 더 많다면 차별도 괜찮은가? 이것이 바로 통계적 차별, 즉 '합리적 차별'이라는 용어의 기원이다.
통계 용어의 주요 개념 정리
통계학에서 선택편향과 출판경향이 발생하는 경우
- 공항에서 소비자 조사를 실시할 경우, 비행기를 이용하는 사람들이 일반 대중보다 부유할 가능성이 크기 때문에 설문조사가 편향될 것이다.고속도로 휴게소에서 설문조사를 한다면 이와 정반대로 편향될 것이다.
- 100개의 연구를 진행했을 때 그 중 한 연구에서는 마치 비디오게임과 대장암 발병률이 낮은 것 사이에 통계적 연관성이 있다는 사례처럼 황당무게한 결과를 얻을 수 있다.(흥미롭게도 실제로 한 설문조사에서 얻은 결과 비디오게임을 하는데 오래 시간을 보내는 사람들의 실제 대장암 발병율이 낮다는 결과가 나왔다)여기서 문제는 비디오게임과 대장암 발병율 사이에서 아무 연결고리도 찾지 못한 99개의 연구는 흥미롭지 않다는 이유로 출판되지 않는다는 사실이다.
표본 평균 빈도 분포
표본 평균들이 정규분포를 이루기 때문에 정규곡선의 힘을 이용하여, 모든 표본 평균들이 약 68퍼센트는 모집단 평균의 1표준오차 범위 안에,95퍼센트는 모집단 평균의 2표준오차 범위 안에,99.7퍼센트는 3표준오타 범위 안에 있다고 예상할 수 있다.
- 모집단에서 무작위로 큰 표본들을 뽑으면 각 표본의 평균들은 (모집단의 분포가 어떻게 생겼는지에 상관없이) 정규분포를 이룰 것이다.
- 표본 평균들은 대부분 모집단 평균에 꽤 가까이 있을 것이다.표준오차는 '가까운 정도'를 나타낸다.
- 중심극한정리는 표본평균이 모집단 평균과 어떤 차이 이내에 있을 확률을 알려준다.표본 평균이 모집단 평균에서 2표준오차 범위를 벗어날 가능성은 비교적 적고, 3표준오차 범위를 벗어날 가능성은 매우 적다.
- 통계적 추론은 데이터와 확률을 중심극한정리의 도움을 받아 실제로 결합한 것이다.
귀무가설과 대립가설
통계적 추론은 입증하는데 사용되는 것이 아니라, 가설의 상대적인 가능성을 따져 가설을 채택하거나 기각하는데 사용된다.엄밀히 말해 모든 통계적 추론은 명시적이든 묵시적이든 귀무가설과 함께 시작된다.귀무가설은 시작점이 되는 가설로, 추후의 통계적 분석을 통해 체택되거나 기각된다.보통 귀무가설을 기각한 후에는 관찰된 데이터에 더 맞는 대립가설이 체택된다.
통계적으로 유의한 것들의 증명
귀무가설을 0.01수준에서 기각하는 것(귀무가설이 옳을 때 그 범위에 속하는 결과를 얻을 확률이 100번 중 한번보다 작다는 것을 뜻한다)이 0.1수준에서 기각하는 것보다 통계학적으로 더 중대한 의미를 가진다.어떤 합리적 수준에서 귀무가설을 기각할 수 있을 때 그 결과를 '통계적으로 유의하다'고 본다는 것이다.
귀무가설의 긍정오류와 부정오류
만일 귀무가설의 기각을 입증하는데 드는 부담이 매우 적다면(예를 들어 기준점이 0.1이라면), 귀무가설이 맞는데도 귀무가설을 기각하는 경우가 많아질 것이다.
열 중 하나의 확률은 그다지 가능성 없는 일이 아니다.새로운 항암제를 승인하는 입장에서 이 문제를 고려해보자.상대적으로 통계적 입증이 쉬운 이 기준점에서 승인한 항암제 열 개 중 하나는 실제로는 효과가 없지만 단지 운이 좋아 시험 결과가 잘 나왔을 뿐이다.법정을 예로 들면 유죄를 선언한 피고 열 명 중 한명은 사실 무죄인 것이다.제 1종 오류에는 귀무가설을 잘못 기각하는 경우가 해당된다.당연히 우리는 효과 없는 항암제를 승인하거나 죄 없는 피고를 감옥에 보내고 싶지 않다.
'경제' 카테고리의 다른 글
인간의 소비심리를 지배하는 뇌과학의 비밀 (0) | 2021.08.22 |
---|---|
지혜를 갖춘 사물의 시대,당신의 무엇이 어떻게 달라질 것인가?<사물 인터넷> (0) | 2020.07.14 |
현금흐름 사분면으로 소득창출하기<부자 아빠 가난한 아빠 2> (0) | 2020.03.18 |
<트렌드코리아 2020>(2)2020년 소비트렌드 전망 (0) | 2020.02.18 |
<트렌드 코리아 2020> (1)2019년 소비트렌드 회고 (0) | 2020.02.14 |