생각 작업실 The atelier of thinking

71. 모비율에 대한 통계적 추론 II 본문

통계학 이야기

71. 모비율에 대한 통계적 추론 II

knowledge-seeker 2024. 6. 12. 11:04

Chapter 71. 모비율에 대한 통계적 추론 II

 

정확한 모수 추정을 위해서는 전수 조사를 한다면 가장 정확하겠지만, 현실적으로 어려움이 많기 때문에 표본조사를 하게 됩니다. 하지만, 표본 수집이라 해도 많은 비용이 들기도 하고, 시간 등의 제약조건이 있습니다. 

 

그렇다고 표본이 너무 적다면 신뢰도에 문제가 생길 수 있습니다. 즉, 표본크기는 모수 추정의 정확도 및 신뢰도에 영향을 줍니다. 따라서 모수 추정을 위한 표본크기는 정확도와 신뢰도, 비용과 시간을 고려한 최적의 크기를 정해야 합니다.


여기서 신뢰도는 신뢰수준을 통하여 , 정확도는 오차범위로 나타낼 수 있습니다.

통계학 추론의 두 방법인 구간추정과 가설검정에 기반한 표본크기 결정방법에 대하여 알아보겠습니다.

 


 

1. 구간 추정에 기반한 표본크기 결정방법

 

모평균과 마찬가지로 신뢰구간은 아래와 같이 나타낼 수 있습니다.

 

 

 

다만 모평균 $(\mu)$ 대신에 모비율 $(\theta)$ 을 사용하여 구할 수 있습니다. 모비율 $(\theta)$  를 기준으로 수식으로 표현하면 아래와 같습니다.

 

$100(1-\alpha)%$ 신뢰수준에서 허용오차범위가 $ \pm \delta $

$$ P(|P-\theta| < \delta) = 1 - \alpha $$


정규근사이므로 정규분포 분위수를 사용합니다. $n$을 기준으로 정리하면 아래와 같습니다.

$$ \delta = z_{\alpha/2} \sqrt{\frac{\theta(1 - \theta)}{n}}$$

$$\implies  n = \left( \frac{z_{\alpha/2}}{\delta}\right)^2 \theta(1-\theta) $$


$\theta$ 에 대한 정보가 없는 경우 모든 $\theta$  에 대해 성립하도록 $n$을 결정하기 위해서, $\theta(1-\theta)$ 는 $\theta$ 가 0.5일 때 가장 큽니다.

 

$$ n = \left( \frac{z_{\alpha/2}}{\delta}\right)^2 \frac{1}{4}$$

 

◈ 예제 : 여론 조사

95% 신뢰수준에서 오차범위가 5%(0.05)이내의 결과를 내기 위한 여론 조사를 최소 몇 명을 조사해야 하는가?

 

$$ n = \left( \frac{z_{\alpha/2}}{\delta}\right)^2 \frac{1}{4}$$

 $\theta$ 가 0.5일 때를 계산해보면

$$ \left( \frac{1.96}{0.05}\right)^2 \frac{1}{4}=384.16$$

 

$\theta$ 에 0.5를 대입하여 계산하면 384.16 으로 최소 385명을 조사해야 합니다.

 


 

2. 가설검정을 위한 표본크기 결정

 

(1) 가설 설정

모평균과 마찬가지로 유효효과 $\delta$ 로 가설 설정을 할 수 있습니다.

 

 귀무가설 $H_0 : \theta = \theta_0 vs $ 대립가설 $H_1 : \theta = \theta_1 = \theta_0 + \delta $ 

 


(2) 검정 통계량

 

$$ Z_0 = \frac{P - \theta_0}{\sqrt{\theta_0(1-\theta_0)/n}} \simeq N( 0, 1 )$$


모비율을 표준화하면 표준정규분포에 근사합니다.

(3) 유의수준

 

$$ P \left( \frac{P - \theta}{\sqrt{\theta_0(1-\theta)/n}} > Z_\alpha | H_0\right) \approx \alpha $$

 

(4) 검정력

 

$$ P \left( \frac{P - \theta}{\sqrt{\theta_0(1-\theta)/n}} > Z_\alpha | H_1\right) $$

 

$$ 1-\beta = P(P>\theta_0 + Z_\alpha \sqrt{\theta_0(1-\theta_0)/n}|H_1 )$$

 

$$ H_1 : \frac{P - \theta_1}{\sqrt{\theta_1(1-\theta_1)/n}} \simeq N( 0, 1 )$$

 

$$ \implies 1 -\beta = 1 - \Phi \left( \frac{\theta_0 - \theta_1 + Z_\alpha \sqrt{\theta_0(1-\theta_0)/n}}{\theta_1(1-\theta_1)/n}\right)$$

 

$$ \implies -\delta+z_\alpha\sqrt{\theta_0(1-\theta_0)/n}=-z_\beta\sqrt{\theta_0(1-\theta_0)/n}$$

 

$$ \implies \sqrt{n} \delta = z_\alpha \sqrt{\theta_0(1-\theta_0)/n} + z_\beta \sqrt{\theta_1(1-\theta_1)/n}$$

 

 

(5) 가설검정을 의한 표본크기

 

위 식을 표본크기 n으로 정리하면,

 

$$ n = \frac{(z_\alpha\sqrt{\theta_0(1-\theta_0)} + z_\beta\sqrt{\theta_1(1-\theta_1)})^2}{\delta^2}$$