-
[기초통계] 표본분포[Study] Data Science/기타 2021. 12. 6. 00:24
■ 통계학의 근본목적
- 모집단에서 추출된 표본에서 얻어진 정보를 기초로, 모집단에 대해 추론하는 것
- 추론을 위해 표본에서 표본통계랑(sample statistic)을 계산
*표본통계량 값은 추출된 표본이 변함에 따라 같이 변하기 때문에, 표본통계량도 확률변수
→ 표본통계량의 확률분포 : 표본분포
1. 확률표본
(배경) 모집단을 대표하기 위해서는 추출방법이 중요 → 무작위추출(random sampling)이 합리적
(정의) 확률표본? 확률추출에 의해 선택된 관측값으로 이루어진 표본, 독립적으로 동일한 확률분포로부터 추출
2.1 표본평균의 표본분포
(배경) 표본에서 구한 표본통계랑인 표본평균 Xbar를 이용하여 모평균 μ를 추론하는데 필요한 표본평균의 특성 파악
(특징)
① 확률변수 X1, X2, ... Xn의 선형결합형태
② 표본평균의 평균 및 표본평균의 분산은 아래와 같다.
ㅇ 표본평균 x bar의 표준편차 : 표본평균이 모평균에서 떨어져 있는 정도, 표본평균의 표준오차라고도 할 수 있음
→ 표본크기 n이 커짐에 따라, 표본평균의 표준오차가 작아진다 : 모평균에 대한 추정오차가 줄어든다
ㅇ 표본평균의 분산은 복원추출인 경우(=표본의 단위가 상호독립)에만 아래의 수식이 성립
표본평균 x bar의 평균이 μ인 이유 2.2 표본분산의 표본분포
(특징)
① 모분산을 중심으로 변동
② 표본분산의 표본분포는 일반적으로 작은 값이 많이 발생하고, 큰 값이 적게 발생하는 비대칭 분포
③ 표본분산 S^2의 분포는 자유도 n-1인 카이제곱분포를 따름
3. 중심극한정리와 대수의 법칙
1) 모집단이 정규분포를 따를 때
- 평균이 μ 이고, 분산이 σ^2 인 정규분포를 따르는 모집단으로부터 무작위로 표본 추출한 경우
→ 확률표본 X1, ... Xn도 평균이 μ 이고, 분산이 σ^2 인 정규분포를 따른다
→ 표본평균 X bar는 이 확률표본의 선형결합이므로, 정규분포를 따른다 (평균 μ , 분산 σ^2 /n )
→ n이 커짐에 따라, 표본평균 X bar의 분포는 모평균에 더 집중한다.
2) 모집단이 정규분포를 따르지 않을 때
- 표본평균의 분포를 정확히 정의할 수는 없음
- 표본크기 n이 충분히 크다면, 모집단의 분포와 상관없이 표본평균의 분포는 근사적으로 정규분포를 따른다
→ 표본평균 X bar ~ N( μ , σ^2 /n )
→ 중심극한정리
*표본평균의 정규화 : Z = (X bar - μ ) / σ/sqrt(n)
3) 대수의 법칙
- 표본크기 n이 커지면, 표본평균의 분산이 작아져서 표본평균이 모평균 근처로 더욱 집중됨
- 즉 표본크기가 커짐에 따라, 모평균에 가까운 표본평균을 얻을 확률이 커진다.
대수의 약법칙 4) 확률변수의 선형결합의 분포
- n개의 확률변수 X1, ... Xn과 n개의 상수 a1, ... an이 주어질 때, 확률변수 Y = a1X1 + ... + anXn은 선형결합
① Xi의 상호독립 여부에 관계없이 성립
② Xi가 상호독립일 때 성립
상호독립이면, 공분산이 0 4. 정규분포에서 추출된 표본분포
(배경)
- 관측된 표본들의 분포는 여러가지 함수형태를 갖게 되며, 표본들의 분포를 알아야 통계적 추론이 가능
- 모집단이 정규분포를 따를 때는 추론이 용이하지만, 그렇지 않은 경우 정규분포를 따르도록 자료를 변환시켜 추론
1) 표본평균
- 평균이 u이고 분산이 σ^2인 정규분포를 따르는 모집단으로부터 크기 n의 확률표본 추출 시,
표본평균 X bar는 평균 μ , 분산 σ^2 /n 인 정규분포를 따른다.
→ 표본평균을 통해 알려지지 않은 모수를 추론할 수 있다. (ex. 모수가 특정 범위 내에 있을 확률)
2) 카이제곱분포
- 두 개의 알려지지 않은 모수 평균 μ , 분산 σ^2 가 있을 때,
모평균은 표본평균을 통해 추론한다면, 모분산은 표본분산을 통해 추론
표본분산 *카이제곱분포? 감마분포의 특수한 경우로 r = k/2, λ= 1/2 를 갖는 경우 *감마분포(gamma distribution)?
- 정규분포로 설명할 수 없는 부분을 설명하기 위해 나온 분포
- (감마함수) : 팩토리얼 n!은 원래 자연수에 한정되어 계산되었으나, 이를 실수 전체로 확장하고자 함
→ 감마함수를 통해 함수의 정의역을 자연수에서 실수로 확장
- (감마분포) : 사건이 r번 발생할 때까지 걸리는 시간에 대한 확률분포출처 : https://blog.naver.com/mykepzzang/220842759639 '[Study] Data Science > 기타' 카테고리의 다른 글
[ADP] 데이터분석 전문가 21회 필기 후기 (0) 2021.05.27 Kaggle 데이터를 API를 통해 Colab으로 가져오기 (0) 2021.01.26