일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- css
- 회귀분석
- r
- 이원배치 분산분석
- 해운업
- 통계학
- 변량효과모형
- 글쓰기
- 오블완
- html
- 변동분해
- 혼합효과모형
- 경제학
- 이항분포
- 확률
- 인공지능
- JavaScript
- 반복없음
- 데이터 과학
- 정규분포
- 반복있음
- 산점도
- 추정
- version 1
- 에세이
- version 2
- 가설검정
- 고정효과모형
- 분산분석
- 티스토리챌린지
- Today
- Total
생각 작업실 The atelier of thinking
54. 표집분포와 대수의 법칙 그리고 중심극한정리 본문
Chapter 54. 표집분포와 대수의 법칙 그리고 중심극한정리
모집단의 모수를 알 수 없기 때문에 이론적으로 표본에서 추출한 모든 표본에 대해 통계량을 계산할 수는 없습니다. 따라서, 표본에서 얻은 통계량이나 검정통계량 등이 어느 정도의 변동성을 가지는 지에 대한 정보를 이용하여 추론을 하게 됩니다. 이 때, 표본에서 얻은 통계량의 분포를 표집분포라고 부르며, 표집분포를 이용하여 통계적 추론을 수행합니다.
1. 표집분포(Sampling Distribution)
표집분포는 한마디로 정의하면 통계량의 확률분포입니다.
여기서 통계량이란 측정가능한 확률표본의 함수를 말합니다.
관심이 가는 통계량으로는 표본평균, 표본분산, 표본표준편차 등이 있습니다.
이런 통계량들이 모수와 연관되어 있기 때문에 모집단을 추정하기 위해서 이들에 대해 아는 것이 중요합니다.
2. 표본평균의 표집분포
(1) 모집단이 이산확률분포일 때
확률분포가 다음과 같을 때
$x$ | 0 | 1 | 2 |
$P(X=x)$ | $\frac{2}{5}$ | $\frac{2}{5}$ | $\frac{1}{5}$ |
평균은 $ \mu = E(X) = \frac{4}{5} $ 이고, 분산은 $ \sigma^2 = Var(X) = \frac{14}{25}$ 입니다.
이 때, 두 개의 확률표본을 추출한 경우, 두 표본의 평균의 분포는 아래와 같습니다.
$$ P(X_1=x_1, X_2=x_2) = P(X_1=x_1) P(X_2=x_2) $$
$\bar{x} $ | 0 | $\frac{1}{2}$ | 1 | $\frac{3}{2}$ | 2 |
$P(\bar{X}=\bar{x})$ | $\frac{4}{25}$ | $\frac{8}{25}$ | $\frac{8}{25}$ | $\frac{4}{25}$ | $\frac{1}{25}$ |
두 개의 확률표본 평균의 평균과 분산은 아래와 같습니다.
$$ E(\bar{X}) = \frac{4}{5} , Var(\bar{X}) = \frac{14}{50} = \frac{1}{2} \times \frac{14}{25} $$
이를 일반화 하여 평균이 $\mu$, 분산이 $\sigma^2$ 인 분포에서 $n$개의 확률표본을 추출했을 경우에, 표본평균 $\bar{X}$ 의 분포는 아래와 같습니다.
$$ E(\bar{X}) = \mu $$
$$ Var(\bar{X}) = \frac{\sigma^2}{n} $$
$$ SD(\bar{X}) = \frac{\sigma}{\sqrt{n}} $$
이 때의 $SD(\bar{X})$ 을 표준오차(Standard Error, SE) 라고 합니다. 즉 통계량으로 이루어진 모집단의 표준편차입니다. 표본 평균 분포의 표준편차라고 부르기에는 너무 길어서 표준오차라 부르기로 정한 것이 아닌가 싶습니다.
분포의 모양은 어떻게 바뀌었을까요?
아래의 확률분포를 그래프로 그리면,
$x$ | 0 | 1 | 2 |
$P(X=x)$ | $\frac{2}{5}$ | $\frac{2}{5}$ | $\frac{1}{5}$ |
두 개의 확률표본을 추출한 경우, 두 표본의 평균의 분포를 그래프로 그리면,
$\bar{x} $ | 0 | $\frac{1}{2}$ | 1 | $\frac{3}{2}$ | 2 |
$P(\bar{X}=\bar{x})$ | $\frac{4}{25}$ | $\frac{8}{25}$ | $\frac{8}{25}$ | $\frac{4}{25}$ | $\frac{1}{25}$ |
(2) 모집단이 정규분포일 때
앞서 정규분포에서 두 정규확률변수의 선형 결합도 정규분포를 따른다고 했습니다.
$$ X_1 \backsim N(\mu_1, \sigma_1^{2}) 이고, X_2 \backsim N(\mu_2, \sigma_2^{2}) 이면, $$
$$ X_1 \pm X_2 \backsim N( \mu_1+\mu_2 , \sigma_1^2+\sigma_2^2 \pm 2\sigma_{12}) $$
만약 두 정규확률변수가 독립이면, 공분산이 0 이므로,
$$ X_1 \pm X_2 \backsim N( \mu_1+\mu_2 , \sigma_1^2+\sigma_2^2 ) $$
정규분포에서 확률표본을 추출한다면,
$$ X_1,X_2,...,X_n \overset{\mathrm{iid}}{\sim} N(\mu , \sigma^2) $$
각각의 확률표본 합의 분포는 평균은 $n\mu$, 분산은 $n\sigma^2$ 인 정규분포를 따릅니다.
$$ X_1+X_2+...+X_n \sim N(n\mu , n\sigma^2) $$
표본평균의 분포는,
$$ \bar{X} = \frac{X_1+X_2+...+X_n}{n} \sim N( \mu , \frac{\sigma^2}{n}) $$
$ \bar{X} $의 표준오차는 $ \frac{\sigma}{\sqrt{n}} $입니다.
확률을 구하기 위해서는 표준화가 필요합니다.
$$ \frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \sim N( 0, 1 ) $$
3. 대수의 법칙(Law of Large Numbers)
대수의 법칙(혹은 큰 수의 법칙)은 확률표본의 표본평균은 표본크기가 커지면 모평균에 수렴한다는 것입니다.
$ X_1,X_2,...,X_n$ 은 평균이 $\mu$이고 분산이 $\sigma^2$인 확률분포라고 할 때,
$$ \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i , E(\bar{X}) = \mu , Var(\bar{X}) = \frac{\sigma^2}{n} $$
임을 알고 있습니다.
이 때, $n$ 을 계속 크게 만들면,
$$ Var(\bar{X}) = \frac{\sigma^2}{n} \implies 0 $$
분산의 분모가 커지면서 분산은 0이 되므로 $\bar{X}$ 는 $\mu$로 수렴하게 됩니다.
4. 중심극한정리 (Central Limit Theorem : CLT)
중심극한정리는 모집단에서 취한 표본 평균값의 분포는 표본 수가 커질수록 평균값을 중심으로 하는 정규분포에 가까워진다는 정리입니다.
즉, 확률표본의 표본평균은 표본크기가 커지면 정규분포에 근사하게 됩니다.
$ X_1,X_2,...,X_n$ 은 평균이 $\mu$이고 분산이 $\sigma^2$인 모집단에서 추출된 확률분포는
$n$이 커질수록 모집답의 형태와 관계없이 $\bar{X}$의 분포(표집분포)는 정규분포에 근사하게 됩니다.
$$ \bar{X} \simeq N( \mu , \frac{\sigma^2}{n}) \implies Z = \frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \simeq N(0,1) $$
◈ 예제 : 확률분포가 다음과 같을 때
$x$ | 0 | 1 | 2 |
$P(X=x)$ | $\frac{2}{5}$ | $\frac{2}{5}$ | $\frac{1}{5}$ |
평균은 $ \mu = E(X) = \frac{4}{5} $ 이고, 분산은 $ \sigma^2 = Var(X) = \frac{14}{25}$ 입니다.
이 때 확률표본 50개를 뽑아 더한 값의 분포는 ?
$$ X_1+X_2+...+X_{50} \sim N(50 \mu, 50 \sigma^2) $$
$n$이 커질수록 모집단의 형태와 관계없이 정규분포에 근사합니다.
아래의 그래프는 표본 50개를 추출하여 100,000번 모의실험을 실행해서 나온 결과입니다.
아래의 n=1 일 때의 그래프보다 n=50 일 때의 그래프가 정규분포에 훨씬 근사해지는 것을 볼 수 있습니다.
'통계학 이야기' 카테고리의 다른 글
56. 이항분포의 정규근사 (1) | 2023.12.07 |
---|---|
55. R 을 이용한 표집분포 & 몬테카를로 모의실험 (0) | 2023.11.24 |
53. 표집분포와 확률표본 그리고 통계량 (0) | 2023.11.16 |
52. R을 이용한 확률분포 - 정규분포 구하기 (0) | 2023.11.15 |
52. 정규분포(Normal Distribution) - 연속확률분포 (1) | 2023.11.14 |