생각 작업실 The atelier of thinking

74. 두 그룹간 평균 비교 - 독립표본 I 본문

통계학 이야기

74. 두 그룹간 평균 비교 - 독립표본 I

knowledge-seeker 2024. 6. 16. 10:12

Chapter 74. 두 그룹간 평균 비교 - 독립표본 I

 

통계 분석에서의 가정은 분석 결과의 정확성과 신뢰성을 보장하기 위해 중요합니다. 그러나 실제 데이터는 가정을 항상 충족시키지 않을 수 있습니다. 따라서 가정이 충족되지 않았을 때는 대안적인 분석 방법이나 접근 방식을 고려하여 데이터에 더 적합한 모델을 선택하고 분석의 정확성을 높일 필요가 있습니다.

가정이 충족되지 않았을 때 대안적인 분석 방법을 찾는 것은 중요합니다. 이를 통해 통계 분석 결과의 신뢰성을 높일 수 있으며, 더 나은 결론을 도출할 수 있습니다. 이를 통해 데이터에 대한 보다 정확한 이해를 얻을 수 있으며, 이는 의사결정에 더 나은 지원을 제공할 수 있습니다. 따라서 통계 분석을 수행할 때는 가정을 검토하고, 가정이 충족되지 않았을 때 대안적인 접근 방식을 고려하는 것이 바람직합니다.

 


1. 모집단 가정

 

두 모집단 모두 정규분포 형태를 가정합니다.

정규모집단 가정으로 독립표본이며 분산이 같은 경우를 가정합니다.

 

 

(1) 확률표본

 

$$ X_1,X_2,...,X_m \sim iid N ( \mu_1 , \sigma^2 )$$

$$ Y_1,Y_2,...,Y_n \sim iid N ( \mu_2 , \sigma^2 )$$

$ \implies X_1,X_2,...,X_m$ 와 $Y_1,Y_2,...,Y_n$ 은 서로 독립, 분산은 동일

 

(2) 점추정

 

두 모집단의 비교에서 관심모수는 두 모평균의 차이라고 할 수 있습니다.
관심모수에 대한 점 추정량은 각각의 표본평균의 차이를 사용할 수 있습니다.

 

$$ \mu_1 - \mu_2 \impliedby \bar{X} - \bar{Y} $$

 

(3) 표본평균의 통계적 성질

 

$$ E(\bar{X}) = \mu_1 ,\quad E(\bar{Y}) = \mu_2 $$

$$ Var(\bar{X}) = \frac{\sigma^2}{m} ,\quad Var(\bar{Y}) = \frac{\sigma^2}{n} $$

 

정규 확률변수의 선형결합은 정규분포를 따릅니다.

 

$$ \bar{X} \sim N( \mu_1, \frac{\sigma^2}{m} ), \quad \bar{Y} \sim N( \mu_2, \frac{\sigma^2}{n}) $$

$\bar{X}$ 와 $\bar{Y}$ 는 독립일 때, $ \bar{X} - \bar{Y} $는 정규분포를 따릅니다.

 

$$ \bar{X}-\bar{Y} \sim N \left( \mu_1-\mu_2, \sigma^2\left(\frac{1}{m}+\frac{1}{n}\right) \right) $$

 

따라서, 두 표본평균의 차이 역시 정규분포를 따르게 됩니다.

 

(4) 표준화 - 합동표본분산

 

두 표본평균의 차이를 표준화하면 아래와 같습니다.

 

$$ Z = \frac{\bar{X}-\bar{Y}-(\mu_1-\mu_2)}{\sigma \sqrt{1/m+1/n}} \sim N (0,1) $$

 

통상 모분산, 모표준편차는 알 수 없는 경우가 많습니다. 따라서, 표본분산과 표본표준편차를 대신 사용하게 됩니다.

 

각각의 표본분산은 아래와 같이 나타납니다.

 

$$ S_X^2 = \frac{1}{m-1} \sum_{i=1}^m (X_i-\bar{X})^2 $$

$$ S_Y^2 = \frac{1}{n-1} \sum_{i=1}^n (Y_i-\bar{Y})^2 $$

 

합동표본분산(Pooled S.V.)이란?

합동표본분산은 두 개 이상의 독립적인 표본으로부터 추정된 분산을 합친 것을 말합니다.
일반적으로 두 개의 표본으로부터 추정된 분산을 합동표본분산으로 결합할 때는 표본의 크기와 편향 보정을 고려하여 계산합니다. 합동표본분산은 각 표본의 크기와 표본분산을 가중하여 합산하는 방식으로 계산됩니다.

두 개의 표본이 주어진 경우, 합동표본분산은 두 표본이 각각 가지는 변동성을 종합적으로 평가할 수 있습니다.

합동표본분산 산식은 아래와 같습니다.

 

$$ S_P^2 = \frac{\sum (X_i-\bar{X})^2+\sum(Y_i-\bar{Y})^2}{m-1+n-1}$$

 

(5) 중심축량

모표준편차대신 합동표본분산을 적용한 중심축량은 아래와 같습니다.

 

$$ T = \frac{\bar{X}-\bar{Y}-(\mu_1-\mu_2)}{S_p\sqrt{1/m+1/n}} \sim t_{m+n-2} $$

 

자유도 "m+n-2"인 t 분포를 따릅니다.


2. 구간 추정

앞서 단일 모집단에서의 모평균 추정과 동일한 방식으로 구간추정을 할 수 있습니다.

신뢰구간의 직관적인 개념은 점추정량을 기준으로 임계값과 표준오차의 곱을 더하거나 뺀 구간을 말합니다.

 

" 점추정량 ± 임계값 X 표준오차(SE)"


두 모평균의 차이에 대한 구간 추정은 위 중심축량을 기준으로 신뢰구간을 정하게 됩니다.

유도 과정을 살펴보면 아래와 같습니다.

 

$ (\mu_1-\mu_2)$에 대한 $ 100(1-\alpha)%$ 신뢰구간을 나타내면,

 

$$ 1-\alpha = P(-t_{\alpha/2,m+n-2} < T <t_{\alpha/2,m+n-2}) $$

$$ = P \left(-t_{\alpha/2,m+n-2}< \frac{\bar{X}-\bar{Y}-(\mu_1-\mu_2)}{S_p\sqrt{1/m+1/n}} < t_{\alpha/2,m+n-2} \right) $$

 

위 식에서 $\mu_1-\mu_2$를 중심으로 정리하면, 신뢰구간은 아래와 같이 정리할 수 있습니다.

 

$$ \left(\bar{X}-\bar{Y}-t_{\alpha/2,m+n-2}S_P\sqrt{1/m+1/n}, \quad \bar{X}-\bar{Y}+t_{\alpha/2,m+n-2}S_P\sqrt{1/m+1/n} \right) $$

 

 


3. 가설 검정

 

가설검정의 절차를 살펴보면, 가설을 설정하고 검정통계량을 구하고 구한 검정통계량의 분포와 유의수준을 비교 검토후 기각 또는 채택의 결론을 내리게 됩니다.

(1) 가설 설정
     귀무가설$(H_0)$ : 현상태에 대한 잠정적 가정
     대립가설$(H_1)$: 우리가 알고 싶은 것

 

 $$ H_0 : \mu_1 = \mu_2 \quad vs \quad H_1: \begin{cases} \mu_1 > \mu_2 \\ \mu_1 < \mu_2 \\ \mu_1 \not= \mu_2 \end{cases}$$

 

일반식 $H_0$ 는 $\mu_1-\mu_2=\delta$ 로 표현할 수 있습니다.

 

(2) 검정통계량 : 귀무가설하에서 표본의 비정상성을 결정하기 위해 사용되는 통계량

 

$$ T_0 = \frac{\bar{X}-\bar{Y} - \delta}{S_p/\sqrt{1/m+1/n}} \sim t_{m+n-2} $$


(3) 검정통계량의 분포와 유의수준을 비교 검토합니다.

 

 유의수준을 $\alpha$라고 하면 기각역 $ \begin{cases} ① (t_{\alpha,m+n-2},\infty ) \\ ② (-\infty, -t_{\alpha,m+n-2}) \\ ③(-\infty,-t_{\alpha/2,m+n-2}),(t_{\alpha/2,m+n-2},\infty) \end{cases} $

 

(4) 결론

기각역(비정상영역) : 귀무가설 기각 (대립가설 채택)
채택역(정상영역) : 귀무가설 유지 (대립가설 기각)