떡밥위키
최근 변경
최근 토론
특수 기능
파일 올리기
작성이 필요한 문서
고립된 문서
고립된 분류
분류가 되지 않은 문서
편집된 지 오래된 문서
내용이 짧은 문서
내용이 긴 문서
차단 내역
RandomPage
라이선스
IP 사용자
216.73.216.107
설정
다크 모드로 전환
로그인
서버 점검 공지
|
개인정보 처리방침 개정 안내
통계학
(r4 문단 편집)
닫기
RAW 편집
미리보기
== 각종 오해와 통념들 == [include(틀:토론 합의, this=문단, 토론주소1=OvertMuddyFluffyTable, 합의사항1=사측의 판단에 따라 편견 및 고정관념/과학 문서의 기여내용을 관련문서로 이동시키고 삭제하기)] * 천몇백 명 표본으로 [[통계]]를 내는 각종 조사들은 신뢰할 수 없다. 대한민국 5천만 국민의 의견을 제대로 반영하려면 최소한 십만 명은 표본으로 삼아야 할 것이다. * 물론 표본의 크기가 커질수록 더 신뢰할 수 있는 데이터가 되기는 한다. 그러나 표본조사론에 따르면, 인구수가 얼마이든지 간에 95% 신뢰수준에서 약 3% 오차범위내로 추정하려면 대략 천명으로 충분하다. 즉, 천 개의 무작위 추출된 표본이면 모집단의 모수를 충분히 추정할 수 있다는 것이다. 그 이상의 표본추출은 비용낭비이다. 또한, 단순히 표본이 커진다고 좋은게 아니라, 표본이 커지면 커질수록 비표본오차가 커지게 된다. 그렇기때문에 비판의 초점은 적절한 표본 추출 방법이 사용되었는가, 정말 무작위 추출이 되었는가, 질문지는 [[편향]]을 유도하지 않는 가 등에 조사방법에 있어야지 표본 수에 있으면 안된다. 조사방법만 제대로 되었다면 천 개의 표본이라도 전 세계 인구를 모집단으로 하는 모수 추정을 95% 신뢰수준에서 3% 오차범위내로 추정할 수 있다. * 1,000명 조사에 응답률 10%이면 사실은 100명의 응답만으로 결론을 도출한 것이다. * 10,000명에게 전화를 걸어서 1,000명이 응답했다는 뜻이다. * 일반적으로 낮은 응답률은 여론조사에 걸리는 시간과 비용의 증가로 이어져서, 영세한 조사업체의 결과를 왜곡시킬 가능성을 높인다. 단, 사회 데이터를 분석할 때에는 응답률이 낮다는 사실 자체가 하나의 의미 있는(meaningful) 신호일 수 있음도 고려해야 한다. 응답하기를 거부한 사람들이 갖고 있는 생각이 조사결과에 반영될 리 없고, 이는 결국 응답률이 낮을수록 조사에 응하기로 한 소수의 사람들의 의견만을 반영했다는 의미가 되기 때문에 편향된 결과가 도출될수 있다. 이를 '무응답 편향' 이라 한다. * [[벤저민 디즈레일리|세상에는 세 가지 거짓말이 있다. 그냥 거짓말, 새빨간 거짓말, 그리고 통계.]] * 사실 이 [[유명 어록]]은 "모든 통계는 무조건 거짓말이다!" 가 아니라 "통계도 얼마든지 조작이 가능하니까 믿기 전에 한번 의심해 봐라" 정도의 의미로 받아들이는 게 더 바람직하다. 통계학에 이해가 깊으면 깊을수록, 아주 사소한 [[표본조사|표본추출 방식]]만을 가지고도 어지간히 교육받은 사람들까지도 맘껏 농락하는 게 가능하다. 그러니까 오히려 이 어록은 '''통계학에 대해서 기초적으로라도 배워 놓으라는 뜻'''일 수 있다.[* 이 맥락에서 정반대로 "통계학을 모르는 사람은 고등교육을 받은 사람이 아니다" 라는 어록도 있다.][br]특히 [[사회과학]]에서는 꼭 조작이 아니더라도 동일 주제를 놓고 서로 다른 기관에서 조사를 하면 서로 다른 결과가 나오기도 한다. 이는 각 통계마다 조사방법론에 차이가 있기 때문이다. 예를 들어 전세계의 행복순위를 확인하기 위해서 각국 국민들을 설문조사하는데, 각국마다 100명씩 표본을 추출한다면 당장 [[리히텐슈타인]]의 표본과 [[중국]]의 표본 간의 대표성에는 차이가 있을 것이다. 또한 "전반적으로 당신은 행복하십니까?" 라고 묻는 것과, "당신은 하루 중 몇 번 정도 행복을 느끼십니까?" 로 묻는 것은 분명히 다르다.[* 극명한 사례를 들자면, 대한민국의 양성평등 순위는 세계에서 몇 등일까? 세계경제포럼(WEF)에 따르면 우리나라는 2013년 기준으로 136개국 중 111위로 최하위권이다. 그런데 유엔개발계획(UNDP)의 성불평등지수(GII)에 따르면 우리나라는 2011년 기준 146개국 중 11위로 최상위권에 속한다! 이렇게 엄청난 차이가 나타나는 것도 가능하다. [[http://m.news.naver.com/read.nhn?mode=LSD&sid1=001&oid=008&aid=0003959148|#관련기사]]] 이런 차이를 알면 알수록, 알지 못하는 일반인들을 교묘하게 속이는 것은 쉬워진다. 여담으로 이 유명 어록은 마크 트웨인이 벤저민 디즈레일리의 말을 인용한 것이다. 그러나 벤저민 디즈레일리의 어떤 저술에도 이런 말을 했다는 증거는 존재하지 않기에 이 문구는 역설적이게도 자기자신조차 거짓말일 수도 있다. * 빈도주의 (Frequentist) 추론 통계학에서, 모평균을 추정하기 위해 95% 신뢰수준에서 신뢰구간을 구할경우, 이는 실제 모평균이 95% 확률로 신뢰구간 내에 존재하고 있다는 뜻이다. * 95% 신뢰수준이란, 동일한 조사를 100번 반복할경우, 이중에 약 95번에 해당하는 조사에서 구해진 95개의 신뢰구간이 실제 참값을 포함할것 이라는 의미이다. 즉, 이미 구해진 신뢰구간은 어떤 모수에 대한 추정치 범위이나, 해당 범위가 무조건 참값을 포함하거나 95% 확률로 참값을 포함한다는 의미가 아니다. [* 위 고정관념의 표현이 애매한 것 같아 원문을 옮긴다. "VERY COMMON ERROR : The confidence interval IS NOT the probability that the population mean lies within the interval."] [[https://www.youtube.com/watch?v=BQ88ni4bJNA|#]] (26:00부터) --95% 확률로 실제 모수 참값이 존재하는 범위를 구하고 싶다면 빈도주의가 아닌 베이지안 추론 통계학을 통해 95% 신용구간을 구하면 된다.--라고 서술되어 있었으나, 아주 큰 오해로 베이지안 추론과 빈도주의 추론에서 다루는 확률은 그 정의부터 다를 뿐더러 베이즈 추론의 95% 신용구간은 일반적으로 빈도주의의 95% 신뢰구간과 일치하지 않는다. 단, 점근적으로는 후자가 성립함을 보일 수 있는 경우가 있는데 이를 Bernstein-von Mises Theorem 이라 한다. * p-값이 0.05보다 작다(p<0.05)는 것은 주어진 가설이 참일 확률은 95% 이상이라는 것을 의미한다. * 그렇지 않다. 미국통계학회에 따르면 영가설이 참이고 다른 모든 가정들이 타당할 경우 관찰된 결과 이상으로 극단적인 결과를 얻을 확률이 5% 이하임을 의미한다. 이는 현직 과학자들도 자주 틀리는 개념이며, 이에 대한 학계 내부의 반성의 목소리도 많다. * 통계분석에 있어서 [[상관관계와 인과관계|상관관계]]가 나오는 것만이 좋은 데이터다. * 꼭 그렇지만은 않아서, 연구주제에 따라서는 두 [[변인]] 간에 아무런 유의미한 관계가 없다고 밝혀지는 것이 중요한 경우도 있다. 실제 한 연구를 예로 들면, [[비정부기구|NGO]]에 고용되어 일하는 직원들의 근속년수와 임금수준 간에는 상관관계가 사실상 존재하지 않는다고 한다. 상관계수는 0에 극히 가깝게 나왔지만 그 자체로 논의거리가 나오니 좋은 연구로 취급된 사례다.[br]영가설을 기각하지 못하는 것이 연구자가 바라는 바인 경우도 있다. 예컨대 통계모형 제작에 필요한 [[요인 분석]] 과정에서 Goodness-of-fit 검정을 하는 경우에는 p-값이 0.05 이상으로 크게 나오지 않으면 전체 분석을 다시 해야 한다. [include(틀:문서 가져옴/나무위키, this=문단, title=편견 및 고정관념/과학, version=576, uuid=b2d87a5e-167f-47a4-b236-73f23575ec4f)]
요약
문서 편집을
저장
하면 당신은 기여한 내용을
CC BY-NC-SA 2.0 KR
또는
기타 라이선스 (문서에 명시된 경우)
로 배포하고 기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다. 이
동의는 철회할 수 없습니다.
비로그인 상태로 편집합니다. 로그인하지 않은 상태로 문서 편집을 저장하면, 편집 역사에 본인이 사용하는 IP(216.73.216.107) 주소 전체가 영구히 기록됩니다.
저장
사용자
216.73.216.107
IP 사용자
로그인
회원가입
최근 변경
[불러오는 중...]
최근 토론
[불러오는 중...]