/ LICENSE

ADSP (6) 통계 분석(1)

ADSP 관련 글

ADSP를 준비하면서 공부한 내용을 정리한 글입니다.
3과목 2장 통계 분석에 대한 부분을 정리한 글입니다.

  1. 통계의 이해
    1. 통계와 표본 조사
    2. 표본 추출 방법
    3. 측정과 척도
    4. 기술통계와 추리통계
  2. 확률과 확률분포
    1. 이산확률분포
    2. 연속확률분포
    3. 여러가지 통계값
  3. 추정과 가설검정
    1. 추정
    2. 가설검정

통계의 이해

통계와 표본 조사

통계
분석하고자 하는 집단에 대해 조사하거나 실험을 통해 얻는 자료

표본조사
전수조사가 불가능하기 때문에 표본의 대표성을 신뢰할 수 있는 표본 조사를 진행

신뢰수준
신뢰수준 95%라는 말은 95% 신뢰할 수 있다는 말이 아니라 100번 조사했을 때 오차범위 내에서 동일한 결과가 95번 나온다는 말

오차범위 오차범위는 결과값에 대한 오차범위로 오차범위 3%라면 n-3~n+3의 값을 갖는다는 의미


표본 추출 방법

단순 랜덤 추출법

표본 추출 방법에서 N개의 모집단에서 n개의 데이터를 무작위로 추출하는 방법

adsp1

계통 추출법

모집단의 원소에 차례대로 번호를 부여한 뒤 일정한 간격을 두고 데이터를 추출하는 방법.

adsp2

집락(군집) 추출법

각각 군집으로 구분한 뒤 단순 랜덤 추출법에 의하여 선택된 군집의 데이터를 표본으로 사용한다.
집락은 서로 동질적이지만, 집락 내 데이터는 서로 이질적이다.

adsp3

층화 추출법

층화 추출법은 집락 추출법과 유사하나 각 집락은 서로 이질적이고 내부 데이터는 서로 독립적이다.

adsp4

비례 층화 추출법
비례 층화 추출법은 전체 데이터의 분포를 반영하여 각 군집별 데이터를 추출하는 방법이다.

불비례 층화 추출법
불비례 층화 추출법은 전체 데이터의 분포를 반영하지 않고 각 군집에서 원하는 데이터의 개수를 추출한다.

측정과 척도

측정
표본조사를 실시하는 경우 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하게 관측해 자료를 얻는 것

척도
관측 대상의 속성을 측정하여 그 값이 숫자로 나타나도록 일정한 규칙을 정하여 바꾸는 도구

척도의 종류

  1. 질적 척도
    1. 명목 척도
      측정 대상이 어느 집단에 속하는지 나타내는 자료 (성별, 지역 등)
    2. 순서 척도
      측정 대상이 명목척도이면서 서열 관계를 갖는 자료 (선호도, 학년 등)
  2. 양적 척도
    1. 구간 척도
      측정 대상이 가지고 있는 속성의 양을 측정할 수 있으며 두 구간 사이에 의미가 있는 자료 (온도, 지수 등)
    2. 비율 척도
      측정 대상이 구간척도이면서도 절대적 기준 0이 존재하여 사칙연산이 가능한 척도 (신장, 무게, 점수, 등)

기술통계와 추리통계

기술통계
기술 통계는 표본 자체의 속성이나 특징을 파악하는 데 중점을 두고 자료를 요약하고 조직화, 단순화하는데 그 목적이 있다.

추리통계
추리통계는 수집한 데이터를 바탕으로 ‘추론 및 예측’하는 통계 기법이다.
표본에서 얻은 통계치를 바탕으로 오차를 고려하면서 모수를 확률적으로 추정하는 통계 기법이다.
모집단의 특성을 추정하는 데 초점을 두고 가설을 검증하거나 확률적인 가능성을 파악한다.

통계 기초 개졈

편차
평균과의 차이

분산 Var(X)
평균으로부터의 분포
분산이 크면 퍼짐의 정도가 크다.

표준편차 sd(X)
분산은 기존과 다른 단위를 갖게 되기 때문에 단위를 일치시키기 위해 분산에 루트를 씌워서 구하는 값


확률과 확률분포

확률
발생 가능한 모든 사건들의 집합 표본공간에서 표본공간의 부분집합인 특정 사건 A가 발생할 수 있는 비율

adsp5

조건부 확률
특정 사건 A가 발생했다는 사실 아래 또 다른 사건 B가 발생할 확률

adsp6

독립사건
서로에게 영향을 주지 않는 두 개의 사건

adsp7

배반사건
공통된 부분이 없는 사건

adsp8

확률변수
무작위 실험을 했을 때 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수

확률분포
확률변수의 모든 값과 그 대응하는 확률이 어떻게 분포하고 있는 지를 보여주는 분포
이산확률분포의 확률함수를 ‘확률질량함수’
연속확률분포의 확률함수를 ‘확률밀도함수’

adsp9


이산확률분포

베르누이 분포

확률변수 X가 취할 수 있는 값이 두 개인 경우로 일반적으로 한 번의 시행을 할 때 성공과 실패로 나눌 수 있는 성공할 확률이 p인 분포
ex) 하나의 동전을 던져 앞면이 나올 확률

adsp10

이항 분포

이항 분포는 n번의 베루누이 시행에서 k번 성공할 확률의 분포
ex) 하나의 동전을 3번 던져 앞면이 2번 나올 확률

adsp11

기하 분포

성공할 확률이 p인 베르누이 시행에서 처음으로 성공이 나올 때까지 k번 실패할 확률의 분포
ex) 동전을 던져서 3번째에 앞면이 나올 확률

adsp12

다항 분포

이항 분포를 확장한 개념으로, n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률의 분포
ex) 주사위를 n번 던졌을 때 Pn의 확률로 1이 x번, 2가 y번 3이 z번 나올 확률

adsp13

포아송 분포

단위 시간 또는 단위 공간 내에서 발생할 수 있는 사건의 발생 횟수에 대한 확률분포
ex) 8시간 동안 3명의 손님이 왔을 때 1시간 동안 1명의 손님이 올 확률

adsp15

이산확률변수

확률변수가 취할 수 있는 실수 값의 수를 셀 수 있는 변수

adsp14


연속확률분포

균일분포

균일 분포는 연속형 확률변수인 X가 취할 수 있는 모든 값에 대하여 같은 확률을 갖고 있는 분포
균일 분포 그래프 아래 면적의 넓이는 확률의 총합인 1

adsp1

정규분포

정규분포는 평균이 μ, 표준편차가 σ인 분포

adsp2

표준정규분포는 평균이 0, 표준편차가 1인 정규분포

adsp3

t-분포

자유도가 n인 t분포는 평균이 0이고 종 모양이지만 정규분포보다 두꺼운 꼬리를 갖는 분포
표준정규분포를 활용하여 모수를 추정하기 위해서는 모표준편차를 사전에 알고있어야 하지만, 현실적으로 모르기 때문에 t분포를 이용하여 모평균 검정 또는 두 집단의 평균이 동일한지 계산하기 위한 검정통계량으로 활용된다.
자유도가 커질수록 t분포는 표준정규분포와 가깝다.

adsp4

자유도는 표본자료들이 모집단에 정보를 주는 독립적인 자료의 개수
ex) 의자 4개와 사람 4명이 있을 때 마지막 사람에겐 선택권이 없으므로 자유도는 3

카이제곱 분포

표준정규분포를 따르는 확률변수 Z1,Z2,···,Zn의 제곱의 합 X는 자유도가 n인 카이제곱 분포를 따른다.
모평균과 모분산을 모르는 두 개 이상의 집단 간 동질성 검정 또는 모분산 검정을 위해 활용된다.

adsp5

동질성 검정
두 집단의 내부 구성비를 비교하는 것

F분포

서로 독립인 두 카이제곱 분포를 따르는 확률변수 V1~x2(k1),V2~x2(k2)를 각각의 자유도로 나누었을 때 서로의 비율 X는 자유도가 k1, k2인 F분포를 따른다.

F분포는 등분산 검정 및 분산분석을 위해 활용된다.

adsp7

등분산 검정
가설 검정을 수행하는 환경에 따라 두 모집단에 대한 평균을 비교할 때 사용

연속확률변수

확률변수가 취할 수 있는 실수 값이 어떤 특정 구간 전체에 해당하여 그 수를 셀 수 없는 변수를 연속확률번수
확률밀도함수의 아래 면적이 확률

adsp6


여러가지 통계값

기댓값

특정 사건이 시행되었을 때 확률변수 X가 취할 수 있는 값의 평균 값

adsp1

분산

분산
데이터들이 중심에서 얼마나 떨어져 있는지를 알아보기 위한 측도

adsp2

확률변수의 분산
확률변수가 취할 수 있는 값들이 모평균에서 얼마나 떨어져 있는지를 측정하는 측도

adsp3

표준편차

자료의 산포도를 나타내는 수치

adsp4

첨도

확률분포의 뾰족한 정도를 나타내는 측도로 값이 3에 가까울수록 정규분포 모양

adsp5

왜도

확률분포의 비대칭 정도를 나타내는 측도
0일 경우 평균, 중앙값, 최빈값이 같음

adsp6

공분산

확률변수 X, Y의 상관 정도를 나타내는 값
하나의 확률변수가 증가할 때 다른 확률변수의 증감소 여부를 확인
양수면 X가 증가할 때 Y도 증가, 음수면 X가 증가할 때 Y는 감소
공분산 값이 100이면 두 확률 분포가 어느 정도 선형성을 갖는지 알 수 없음

adsp7

adsp8

상관계수

공분산의 문제를 해결한 값으로 -1과 1 사이의 값 중에서 공분산을 X의 표준편차와 Y의 표준편차로 모두 나눈 값

adsp9

adsp10

추정과 가설검정

추정

모수의 추정

우리가 궁극적으로 알고싶은 값은 모수지만, 전수조사를 해야 알 수 있기 때문에 모수를 추정한다.

점추정

모집단의 모수, 특히 모평균을 추정할 때 모평균을 하나의 특정한 값이라고 예측한 것
불편추정량이란 모수를 추정할 때 추정하는 값과 실제 모수 값의 차이의 기댓값이 0이므로 어느 한쪽으로 편향되지 않아 모수를 추정하기에 이상적인 값

구간추정

구간추정은 모수가 특정한 구간 안에 존재할 것이라 예상하는 것

가설검정

통계적 가설검정은 모집단의 특성에 대한 주장 또는 가설을 세우고 표본에서 얻은 정보를 이용해 가설이 옳은지 판정하는 과정으로 귀무가설과 대립가설로 구분

귀무가설 (H0)

모집단이 어떤 특징을 지닐것으로 여겨지는 가설

대립가설 (H1)

귀무가설이 틀렸다고 판단될 경우 채택되는 가설
연구를 통해 증명하고자 하는 새로운 가설

제1종 오류와 제2종 오류

제 1종 오류
귀무가설이 사실인데 귀무가설이 틀렸다고 결정하는 오류

제 2종 오류
귀무가설이 틀렸음에도 귀무가설이 옳다고 결정하는 오류

검정통계량

귀무가설의 옳고 그름을 판단할 수 있는 값

기각역

귀무가설을 기각하게 될 검정통계량의 영역
검정통계량이 기각역 내에 있으면 귀무가설을 기각한다.
기각역의 경계값을 임계값이라고 한다.

유의수준 (α)

귀무가설이 참인데도 이를 잘못 기각하는 오류를 범할 확률의 최대 허용 한계
제 1종 오류를 줄이기위해 사용된다.

유의확률 (p-value)

귀무가설을 지지하는 정도를 나타낸 확률

p-value < α
귀무가설을 기각할 수 있다.

p-value > α
귀무가설을 기각할 수 없다.

기존의 귀무가설을 수립하고 이를 기각하는 증거를 찾는 대립가설을 채택하는 것이 가설 검증의 횟수를 줄일 수 있기 때문에 귀무가설을 검증한다.

모수검정

모수검정은 표본이 정규성을 갖는다는 모수적 특성을 이용

등간척도, 비율척도
평균
피어슨 상관계수
one sample t-test, two sample t-test, paired t-test, one way anova

비모수검정

비모수검정은 정규성 검정에서 정규분포를 따르지 않는다고 증명되거나 소규모 실험에서와 같이 정규분포를 가정할 수 없는 경우에 사용

명목척도, 서열척도
중앙값
스피어만 상관계수
부호검정, Wilcoxon 부호순위검정, Mann-Whitney 검정