떡밥위키
최근 변경
최근 토론
특수 기능
파일 올리기
작성이 필요한 문서
고립된 문서
고립된 분류
분류가 되지 않은 문서
편집된 지 오래된 문서
내용이 짧은 문서
내용이 긴 문서
차단 내역
RandomPage
라이선스
IP 사용자
216.73.216.107
설정
다크 모드로 전환
로그인
서버 점검 공지
|
개인정보 처리방침 개정 안내
통계학
(r4 문단 편집)
닫기
RAW 편집
미리보기
=== 데이터의 형태에 따른 각론 === 다루게 되는 데이터의 형태에 따라, 여기에 접근하기 위한 이론적 관점이나 통계적 기법 등이 달라지게 된다. * '''다변량자료분석''' 둘 이상의 측정 변수(다변량 자료)를 다루는 분야이다. 예를 들어 단순히 각 사람들의 키만을 조사해 분석하는 게 아니라, 각 사람들의 키, 몸무게, 허리둘레, 성별 등등 많은 변수를 조사하여, 그 변수들이 가지고 있는 분포를 종합적으로 고려하여 데이터를 분석하기 위한 방법이다. 변수가 많기 때문에 시각화가 어렵고, 많은 변수를 한 번에 다루기 위해 행렬 이론 등이 많이 사용된다. 차원을 줄이고 정보를 요약하는 방법을 많이 다룬다. 학부 수준에서는 몇 개의 주성분을 뽑아내어 차원을 축소하는 [[주성분 분석]], 숨겨진 요인을 찾는 [[요인 분석]](인자분석), 자료를 분류 및 군집화하는 판별분석 및 [[군집 분석|군집분석]] 등을 다룬다. * '''범주형자료분석''' 우리가 관심 대상으로 하는 자료는 키, 몸무게 등 수치적, 연속적으로 나오는 자료도 있지만, 성별 등 범주가 나누어져 있는 자료들이 있다. 이러한 범주형 자료를 분석하는 방법을 다룬다. * '''[[생존 분석]]/생존자료분석''' 불완전한 데이터 중 특수한 형태를 다루는 분야이다. 예를 들어 어떤 병에 대한 신약의 효과를 검증하기 위해 환자들을 모아 그 수명 시간을 조사하고자 하는 상황을 생각해보자. 이 때, 병이 악화되어 이미 수명이 다 한 사람은 수명을 정확히 알고 있지만, 아직 생존한 환자는 그 수명을 정확히 알지 못하고 '현 시점보다는 오래 산다'는 사실만 알게 되며 따라서 데이터가 불완전해진다. 이와 같은 불완전 자료를 분석하는 방법을 다루며 의학통계에 주로 응용된다. * '''확률과정론''' 많은 현상은 이전의 상태가 이후의 상태에 영향을 미치며, 그 상태가 결정되어있지 않고 랜덤하다. 따라서 이를 시간에 대한 함수로서의 확률변수열이라고 생각할 수 있는데, 이를 [[확률 과정]](stochastic process)이라고 한다. 쉽게 말하면 매 시간마다 그 상태가 랜덤한 [[확률 변수]]라는 것이다. [[확률과정론]]은 현상을 확률 과정으로 해석하여 모형을 세우고, 그 확률 과정의 여러 성질을 연구하는 분야이다. * '''[[시계열 분석]]''' (time-series analysis) 시계열 자료, 즉 시간이 흐르며 관측된 자료를 다루는 분야이다. 주가 지수, 물가 지수, 월별/연별 강수량 등의 자료가 모두 시계열자료이다. 이러한 시계열자료의 두드러지는 특징은 한 시점에 여러 개의 데이터를 얻기 힘들다는 점과(시간이 흘러 버리므로), 관측치끼리 서로 연관이 있다(예를 들어, 오늘의 주가 지수는 어제의 주가 지수에 영향을 받을 수밖에 없다)는 점이다. 실생활의 수많은 자료가 시계열자료이므로 자료를 분석하고자 할 때 매우 중요한 분야 중 하나이다. * '''[[위상 데이터분석]]'''
요약
문서 편집을
저장
하면 당신은 기여한 내용을
CC BY-NC-SA 2.0 KR
또는
기타 라이선스 (문서에 명시된 경우)
로 배포하고 기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다. 이
동의는 철회할 수 없습니다.
비로그인 상태로 편집합니다. 로그인하지 않은 상태로 문서 편집을 저장하면, 편집 역사에 본인이 사용하는 IP(216.73.216.107) 주소 전체가 영구히 기록됩니다.
저장
사용자
216.73.216.107
IP 사용자
로그인
회원가입
최근 변경
[불러오는 중...]
최근 토론
[불러오는 중...]