ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [기초통계] 표본분포
    [Study] Data Science/기타 2021. 12. 6. 00:24

    ■ 통계학의 근본목적

    - 모집단에서 추출된 표본에서 얻어진 정보를 기초로, 모집단에 대해 추론하는 것

    - 추론을 위해 표본에서 표본통계랑(sample statistic)을 계산

       *표본통계량 값은 추출된 표본이 변함에 따라 같이 변하기 때문에, 표본통계량도 확률변수 

        → 표본통계량의 확률분포 : 표본분포

     

    1. 확률표본

    (배경) 모집단을 대표하기 위해서는 추출방법이 중요 → 무작위추출(random sampling)이 합리적

    (정의) 확률표본? 확률추출에 의해 선택된 관측값으로 이루어진 표본, 독립적으로 동일한 확률분포로부터 추출

     

    2.1 표본평균의 표본분포

    (배경) 표본에서 구한 표본통계랑인 표본평균 Xbar를 이용하여 모평균 μ 추론하는 필요한 표본평균의 특성 파악

    (특징)

    ① 확률변수 X1, X2, ... Xn의 선형결합형태

    ② 표본평균의 평균 및 표본평균의 분산은 아래와 같다.

      ㅇ 표본평균 x bar의 표준편차 : 표본평균이 모평균에서 떨어져 있는 정도, 표본평균의 표준오차라고도 할 수 있음

         → 표본크기 n이 커짐에 따라, 표본평균의 표준오차가 작아진다 : 모평균에 대한 추정오차가 줄어든다

       ㅇ 표본평균의 분산은 복원추출인 경우(=표본의 단위가 상호독립)에만 아래의 수식이 성립

    표본평균 x bar의 평균이 μ인 이유 

     

    2.2 표본분산의 표본분포

    (특징)

    ① 모분산을 중심으로 변동

    ② 표본분산의 표본분포는 일반적으로 작은 값이 많이 발생하고, 큰 값이 적게 발생하는 비대칭 분포

    표본분산 S^2의 분포는 자유도 n-1인 카이제곱분포를 따름

     

     

    3. 중심극한정리와 대수의 법칙

    1) 모집단이 정규분포를 따를 때

    - 평균이 μ 이고, 분산이 σ^2 인 정규분포를 따르는 모집단으로부터 무작위로 표본 추출한 경우

     

      → 확률표본 X1, ... Xn도 평균이 μ 이고, 분산이 σ^2 인 정규분포를 따른다

      → 표본평균 X bar는 이 확률표본의 선형결합이므로, 정규분포를 따른다 (평균 μ  , 분산 σ^2 /n  )

      → n이 커짐에 따라, 표본평균 X bar의 분포는 모평균에 더 집중한다.

     

    2) 모집단이 정규분포를 따르지 않을 때

    - 표본평균의 분포를 정확히 정의할 수는 없음

    - 표본크기 n이 충분히 크다면, 모집단의 분포와 상관없이 표본평균의 분포는 근사적으로 정규분포를 따른다

     표본평균 X bar ~ N( μ , σ^2 /n  )

     → 중심극한정리

     *표본평균의 정규화 : Z = (X bar - μ ) /  σ/sqrt(n)

     

    3) 대수의 법칙

    - 표본크기 n이 커지면, 표본평균의 분산이 작아져서 표본평균이 모평균 근처로 더욱 집중됨

    - 즉 표본크기가 커짐에 따라, 모평균에 가까운 표본평균을 얻을 확률이 커진다.

    대수의 약법칙

    4) 확률변수의 선형결합의 분포

    - n개의 확률변수 X1, ... Xn과 n개의 상수 a1, ... an이 주어질 때, 확률변수 Y = a1X1 + ... + anXn은 선형결합

    ① Xi의 상호독립 여부에 관계없이 성립

    ② Xi가 상호독립일 때 성립

    상호독립이면, 공분산이 0

     

    4. 정규분포에서 추출된 표본분포

    (배경) 

    - 관측된 표본들의 분포는 여러가지 함수형태를 갖게 되며, 표본들의 분포를 알아야 통계적 추론이 가능

    - 모집단이 정규분포를 따를 때는 추론이 용이하지만, 그렇지 않은 경우 정규분포를 따르도록 자료를 변환시켜 추론

     

    1) 표본평균

    - 평균이 u이고 분산이 σ^2인  정규분포를 따르는 모집단으로부터 크기 n의 확률표본 추출 시,

      표본평균 X bar는 평균 μ  , 분산 σ^2 /n 인 정규분포를 따른다.

    → 표본평균을 통해 알려지지 않은 모수를 추론할 수 있다. (ex. 모수가 특정 범위 내에 있을 확률)

     

    2) 카이제곱분포

    - 두 개의 알려지지 않은 모수 평균 μ  , 분산 σ^2 가 있을 때,

      모평균은 표본평균을 통해 추론한다면, 모분산은 표본분산을 통해 추론

    표본분산

    *카이제곱분포? 감마분포의 특수한 경우로  r = k/2, λ= 1/2 를 갖는 경우
     *감마분포(gamma distribution)? 
     - 정규분포로 설명할 수 없는 부분을 설명하기 위해 나온 분포
     - (감마함수) : 팩토리얼 n!은 원래 자연수에 한정되어 계산되었으나, 이를 실수 전체로 확장하고자 함
       → 감마함수를 통해 함수의 정의역을 자연수에서 실수로 확장 
     - (감마분포) : 사건이 r번 발생할 때까지 걸리는 시간에 대한 확률분포

    출처 : https://blog.naver.com/mykepzzang/220842759639

     

Designed by Tistory.