생각 작업실 The atelier of thinking

80. 두 그룹의 비율 비교 본문

통계학 이야기

80. 두 그룹의 비율 비교

knowledge-seeker 2024. 6. 23. 17:26

Chapter 80. 두 그룹의 비율 비교

 

 앞서 단일 모집단의 모비율에 대한 통계적 추론은 모집단에서 특정 범주형 변수의 비율을 추정하고 이에 대한 가설을 검정하는 것을 의미합니다. 이러한 추론은 주어진 표본을 사용하여 모비율에 대한 추정치를 계산하고, 이 추정치의 신뢰구간을 구하거나 가설을 검정하여 모비율이 특정 값과 같은지 여부를 판단합니다.

이번회차에는 두 개의 범주를 가진 데이터에서 각 범주의 비율을 추론하고, 두 그룹의 비율 차이를 검정해 보겠습니다.


1. 모집단 가정

 

각각의 모집단은 동일한 두 범주로 (성공 S, 실패 F ) 로 나뉘어져 있다고 가정합니다.

 

 

$\theta_1 : $ 모집단 X의 S 범주 비율,   $\theta_2 : $ 모집단 Y의 S 범주 비율

 

여기에서 관심사항은 두 모비율의 같은지의 여부입니다. 이에 관심모수는 아래와 같이 표현할 수 있습니다.

$$\theta_1 = \theta_2$$

$$\theta_1-\theta_2 = 0 $$

 

(1) 확률표본

 

각 모집단의 확률분포는 이항분포와 정규근사를 사용하여 구할 수 있습니다.

 

$$ X_1,X_2,...,X_m \sim iid B ( \theta_1 )$$

$$ Y_1,Y_2,...,Y_n \sim iid B ( \theta_2 )$$

$$ X= X_1+ X_2+...+X_m \sim iid B ( m, \theta_1 )$$

$$ Y=Y_1+Y_2+...+Y_n \sim iid B ( n, \theta_2 )$$

 

(2) 점 추정량

 

모수인 모비율에 대한 정보는 표본비율이 가장 많이 가지고 있으므로 직관적으로 표본비율을 사용합니다.

 

$$ \theta_1 \impliedby P_1 = X/m $$

$$\theta_2 \impliedby P_2 = Y/n $$

 

(3) 통계적 성질

 

표본비율의 통계적 성질은 아래와 같습니다.

 

$$ E(X_i) = \theta_1, \quad Var(X_i) = \theta_1(1-\theta_1)  $$

$$ \implies P_1 = X/m \sim N(\theta_1, \theta_1(1-\theta_1)/m )$$

 

$$ E(Y_i) = \theta_2, \quad Var(Y_i) = \theta_2(1-\theta_2)  $$

$$ \implies P_2 = Y/n \sim N(\theta_2, \theta_2(1-\theta_2)/n )$$

 

따라서, 점추정량은 아래와 같이 정규분포에 근사합니다.

 

$$P_1-P_2 \simeq N(\theta_1-\theta_2, \frac{\theta_1(1-\theta_1)}{m}+\frac{\theta_2(1-\theta2)}{n})$$

 

(4) 중심축량

 

위 점추정량을 표준화하면 아래와 같이 중심축량을 구할 수 있습니다.

 

$$ Z = \frac{P_1-P_2-(\theta_1-\theta_2)}{\sqrt{\theta_1(1-\theta_1)/m + \theta_2(1-\theta_2)/n}} \simeq N(0,1) $$

 

위 중심축량이 정규근사를 위해서는 아래의 조건 중 3개 이상이 만족해야 합니다.

 

$$ m\theta_1 \ge 5, \quad m(1-\theta_1) \ge 5, \quad n\theta_2 \ge 5, \quad n(1-\theta_2) \ge 5$$

 


2. 구간 추정

 

두 그룹의 모비율 차이에 대한 구간 추정은 정규분포를 이용하여 구할 수 있습니다.

모비율 차이의 구간 추정은 위 중심축량을 기준으로 신뢰구간을 정하게 됩니다.

 

유도과정은 아래와 같습니다.

 

$\theta_1 - \theta_2$ 의 $100(1-\alpha)%$의 신뢰구간

 

$$ 1-\alpha  = P \left(-Z_{\alpha/2} < \frac{P_1-P_2-(\theta_1-\theta_2)}{\sqrt{\theta_1(1-\theta_1)/m + \theta_2(1-\theta_2)/n}} < Z_{\alpha/2} \right) $$

 

$ \theta_1 - \theta_2 $ 을 중심에 두면,

 

$$=P(P_1-P_2-Z_{\alpha/2} \sqrt{\theta_1(1-\theta_1)/m+\theta_2(1-\theta_2)/n} \le \theta_1-\theta_2 \le P_1-P_2+Z_{\alpha/2}\sqrt{\theta_1(1-\theta_1)/m+\theta_2(1-\theta_2)/n}))$$

 

$\theta_1, \theta_2$를 알 수 없기 때문에 $P_1,P_2$로 대체하여 사용하면, 신뢰구간은 아래와 같이 나타납니다.

 

$$\left( P_1-P_2-Z_{\alpha/2} \sqrt{\frac{P_1(1-P_1)}{m}+\frac{P_2(1-P_2)}{n}} ,  P_1-P_2+Z_{\alpha/2}\sqrt{\frac{P_1(1-P_1)}{m}+\frac{P_2(1-P_2)}{n}}  \right)$$

 


 

3. 가설 검정

 

가설검정의 절차를 살펴보면, 가설을 설정하고 검정통계량을 구하고 구한 검정통계량의 분포와 유의수준을 비교 검토후 기각 또는 채택의 결론을 내리게 됩니다.


(1) 가설 설정


     귀무가설$(H_0)$ : 현상태에 대한 잠정적 가정
     대립가설$(H_1)$: 우리가 알고 싶은 것

 

 $$ H_0 : \theta_1 = \theta_2 \quad vs \quad H_1: \begin{cases} \theta_1 > \theta_2 \\ \theta_1 < \theta_2 \\ \theta_1 \not= \theta_2 \end{cases}$$

 

 귀무가설 $ H_0는 \theta_1=\theta_2=\theta$ 로 표현할 수 있습니다.

 

공통비율 $\theta$ 는 표본비율 $ P = (X+Y)/(m+n)$ 으로 나타낼 수 있습니다.

 

(2) 검정통계량 : 귀무가설하에서 표본의 비정상성을 결정하기 위해 사용되는 통계량

$$  \frac{P_1-P_2-(\theta_1-\theta_2)}{\sqrt{\theta_1(1-\theta_1)/m + \theta_2(1-\theta_2)/n}}  $$

 

중심축량에 $\theta_1, \theta_2$ 대신에 $\theta$를 넣어 정리하면,

 

$$  \frac{P_1-P_2}{\sqrt{\theta(1-\theta)} \sqrt{1/m+1/n}}  $$

 

검정통계량에 $\theta$ 대신에  표본비율 $P$ 를 대입하면,

 

$$  Z_0 = \frac{P_1-P_2}{\sqrt{\theta(1-\theta)} \sqrt{1/m+1/n}} \simeq N(0,1) $$

 


(3) 검정통계량의 분포와 유의수준을 비교 검토합니다.

 

 유의수준을 $\alpha$라고 하면 기각역 $ \begin{cases} ① (Z_{\alpha},\infty ) \\ ② (-\infty, -Z_{\alpha}) \\ ③(-\infty,-Z_{\alpha/2}),(Z_{\alpha/2},\infty) \end{cases} $

 

양측검정의 경우에는 $Z_0^2$의 값이 $Z_{\alpha/2}$보다 크면 귀무가설은 기각됩니다.

 

$$Z_0^2=\frac{(X-mP)^2}{mP}+\frac{(m-X-m(1-P))^2}{m(1-P)}+\frac{(Y-nP)^2}{nP}+\frac{(n-Y-n(1-P))^2}{n(1-P)}$$

 

위 검정통계량의 제곱의 각 항은 (관측값 - 기대값)을 제곱하고 다시 기대값으로 나누어진 형태로 나타납니다.

 

  S F 합 계
그룹 1 X m - X m
그룹 2 Y n - Y n
합 계 X+Y m -X + n - Y m+n

 

$Z \sim N(0,1) : Z$가 정규분포를 따르면,

$ \implies Z^2 \sim \chi_1^2 : $ 이에 제곱은 자유도가 1인 카이제곱분포를 따릅니다.

 

(4) 결론


기각역(비정상영역) : 귀무가설 기각 (대립가설 채택)
채택역(정상영역) : 귀무가설 유지 (대립가설 기각)