생각 작업실 The atelier of thinking

83. 분산분석의 검정통계량 본문

통계학 이야기

83. 분산분석의 검정통계량

knowledge-seeker 2024. 6. 26. 12:43

Chapter 83. 분산분석의 검정통계량

 

앞서 두 그룹의 평균을 비교할 때는 T검정을 사용하였습니다. 하지만, 세 그룹이상의 평균을 비교할 때 T검정을 사용하게 되면 여러문제가 발생할 수 있습니다. 따라서, 세 그룹이상의 평균을 비교할 때는 분산분석을 사용하는 것이 좋습니다.

 

 

 

우선 알아볼 부분은 검정통계량입니다. 검정통계량은 통계적 추론에서 기준점을 제공합니다. 특히 가설 검정에 있어서 가설의 채택 여부를 결정하는 기준점입니다. 이번 회차에서는 분산분석의 검정통계량에 대해서 알아보겠습니다. 


 

1. 다중검정의 문제

 

다중 검정의 문제란 여러 개의 가설을 동시에 검정할 때 발생할 수 있는 문제점들을 의미합니다.

세 그룹의 평균을 비교한다고 할 때, 두 그룹의 평균 차이를 비교했던 T 검정을 사용해서 비교한다면 아래와 같이 할 수 있습니다.

 

(1) 모집단 가정

 

세 모집단은 모두 독립표본이고 정규성을 따릅니다.
그리고 각 모집단의 분산은 같다고 가정합니다.

 

(2) 가설 설정

 

아래와 같이 세 모집단의 평균이 같다라고 귀무가설을 설정합니다.

 

귀무가설 $H_0: \mu_1=\mu_2=\mu_3 \quad vs $ 대립가설 $H_1 : not H_0$

   
위 가설에서는 직관적으로 적절한 검정통계량을 찾기 어렵습니다.

따라서, 귀무가설을 아래처럼 쌍으로 표현할 수 있습니다.

 

$$H_{01}: \mu_1=\mu_2$$

$$H_{02}: \mu_1=\mu_3$$

$$H_{03}: \mu_2=\mu_3$$


모든 쌍을 T-검정을 실행할 수 있습니다. 위에서 모든 귀무가설을 채택하면 귀무가설이 채택하게 됩니다.

 

(3) 유의수준 문제

 

유의수준을 $\alpha$ 라고 설정했다면, 각 귀무가설이 채택할 확률은 $1-\alpha$ 라고 할 수 있습니다.

$$P(H_{0i} 채택 | H_{0i} 사실) = 1 - \alpha$$
위 귀무가설이 채택되려면 모든 귀무가설이 채택되어야 합니다.

 

$$P(H_0채택|H_0사실)=P(H_{01}채택 \cap H_{02}채택 \cap H_{03}채택|H_0 사실)$$


위 모든 귀무가설이 채택될 확률은 본페로니 부등식을 이용하여 구할 수 있습니다.

 

※ Boterroni's inequality ( 본페로니 부등식 )

 

$$P(A_1 \cap A_2 \cap A_3) \ge P(A_1)+P(A_2)+P(A_3)-2$$

$$\impliedby P(A \cap B) \ge P(A)+P(B)-1$$

$$P(A \cup B ) \leq P(A)+P(B)$$


각각의 귀무가설 검정에 유의수준을 α 라고 한다면, 모든 귀무가설이 채택될 확률은 아래와 같이 구할 수 있습니다.

 

$$P(H_0채택|H_0사실)=P(H_{01}채택 \cap H_{02}채택 \cap H_{03}채택|H_0 사실)$$

$$\implies P(H_0채택|H_0사실) \ge (1-\alpha)+(1-\alpha)+(1-\alpha)-2 = 1- 3\alpha$$

$$P(H_0채택|H_0사실) \leq 1-(1-3\alpha) = 3\alpha$$


각 가설에 대해 5% 유의수준의 검정결과를 결합하여 결론을 내는 검정방법은 실제 유의수준에서 최대 15% 가 될 수 있습니다. 이는 잘못된 결론을 내리는 위험을 증가시킬 수 있습니다.

따라서, 세 그룹의 평균비교에 T-검정을 사용하는 것은 부적절합니다.

 


2. 분산분석의 검정통계량

 

다중 검정의 문제로 인하여 T 검정을 세 그룹이상의 평균 비교에 사용하는 것은 적절하지 않다는 것을 알게 되었습니다. 따라서 새로운 방법을 모색하여 개발한 방법이 분산분석(ANOVA) 입니다.

분산분석의 검정통계량은 아래와 같습니다.

 

관측값 그룹1 그룹2 ... 그룹p
1 $Y_{11}$ $Y_{21}$ ... $Y_{p1}$
2 $Y_{12}$ $Y_{22}$ ... $Y_{p1}$
... ... ... ... ...
n $Y_{1n}$ $Y_{2n}$ ... $Y_{pn}$
표본평균 $\bar{Y_1}$ $\bar{Y_2}$ ... $\bar{Y_p}$

 

$Y_{ij} : i$번째 그룹의 $j$번째 관측값, $i = 1,2,...,p, \quad j = 1,2,...,n$

$\bar{Y_i} : i$번째 그룹의 표본평균,  $\bar{Y}:$ 전체 관측값의 평균

$$F_0=\frac{\sum_{i=1}^p n_i(\bar{Y_i}-\bar{Y})^2/(p-1)}{\sum_{i=1}^p \sum_{j=1}^{n_i}(\bar{Y_{ij}}-\bar{Y})^2/ \sum_{i=1}^p(n_i-1)} \sim F_{p-1,N-p}$$

$N = \sum_{i=1}^p n_i $ (총관측치)

 

 

이 검정통계량은 모든 모집단의 분산은 동일하다는 가정하에서 유도되었습니다.

위 검정통계량의 분자를 따로 분리해서 살펴보면,

 

$$\sum_{i=1}^p n_i(\bar{Y_i}-\bar{Y})^2/(p-1)$$


이것은 표본평균들의 분산을 구하는 식임을 알 수 있습니다.
즉, 전체평균을 기준으로 각 표본평균들이 얼마나 퍼져 있는지 알려주는 통계량입니다. 그룹 평균간의 분산을 나타냅니다.

위 검정통계량의 분모를 따로 분리해서 살펴보면,

 

$$\sum_{i=1}^p \sum_{j=1}^{n_i} (\bar{Y_{ij}} - \bar{Y_i})^2/\sum_{i=1}^p(n_i - 1)$$


이는 전체 그룹의 분산이 같다는 전제하에 공통분산$\sigma^2$을 나타냅니다.
각 그룹의 관측값들이 해당 그룹의 표본평균으로 부터 얼마나 퍼져 있는지 알려주는 통계량입니다. 각 그룹내에서의 분산을 나타냅니다.

이를 유도하는 과정은 아래와 같습니다.

 

(1) 두 그룹 평균 차이 - 독립표본, 등분산일 때

 

앞서 두 그룹의 평균 차이를 구하는 검정 통계량은 아래와 같습니다.

 

$$ T = \frac{\bar{X}-\bar{Y}-\delta}{S_p\sqrt{1/m+1/n}} \sim t_{m+n-2} $$


위 식에서 합동표본분산의 식은 아래와 같습니다.

 

$$ S_P^2 = \frac{\sum (X_i-\bar{X})^2+\sum(Y_i-\bar{Y})^2}{m+n-2}$$


위 검정통계량을 제곱을 하면 아래와 같이 나타납니다.

 

$$T_0^2=\frac{(\bar{X}-\bar{Y})^2}{S_P^2(1/m+1/n)} =\frac{\frac{mn}{m+n}(\bar{X}-\bar{Y})^2}{S_P^2} \sim F_{1,m+n-2}$$


검정통계량을 제곱한 값은 분자의 자유도는 1, 분모의 자유도는 m+n-2인 F 분포를 나타냅니다.

위 식에서 분자는 아래와 같이 정리할 수 있습니다.

$\frac{mn}{m+n}(\bar{X}-\bar{Y})^2$ 에서

$\frac{\sum X_i+\sum Y_i}{m+n} = \hat{\mu}$는 전체평균을 나타냅니다.

$$\frac{mn}{m+n}(\bar{X}-\bar{Y})^2=m(\bar{X}-\hat{\mu})^2+n(\bar{Y}-\hat{\mu})^2$$


전체평균에서 각 그룹의 평균이 얼마나 떨어져 있는지 나타냅니다.

위 식에서 분모는 합동표본분산으로 이는 두 개 이상의 독립적인 표본으로부터 추정된 분산을 합친 것을 말합니다.

이제 분모,분자에 각각을 대입하면 아래와 같습니다.

 

$$T_0^2=\frac{m(\bar{X}-\hat{\mu})^2+n(\bar{Y}-\hat{\mu})^2}{\sum(X_i-\bar{X})^2 + \sum(Y_i-\bar{Y})^2/m+n-2} \sim F_{1,m+n-2}$$

 

 

(2) 분산분석의 검정통계량

 

이제 위 식에 그룹하나를 더 추가하면 아래와 같습니다.

 

$$T_0^2=\frac{m(\bar{X}-\hat{\mu})^2+n(\bar{Y}-\hat{\mu})^2+l(\bar{Z}-\hat{\mu})^2 / 2}{\sum(X_i-\bar{X})^2 + \sum(Y_i-\bar{Y})^2+\sum(Z_i-\bar{Z})^2/m+n-2} \sim F_{1,m+n+l-3}$$


위 식은 분자의 자유도는 2, 분모의 자유도는 m+n+l -3 인 F 분포를 나타냅니다.


이 식을 일반화 하면 분산분석의 검정통계량이 됩니다.

 

$Y_{ij} : i$번째 그룹의 $j$번째 관측값, $i = 1,2,...,p, \quad j = 1,2,...,n$

$\bar{Y_i} : i$번째 그룹의 표본평균,  $\bar{Y}:$ 전체 관측값의 평균

$$F_0=\frac{\sum_{i=1}^p n_i(\bar{Y_i}-\bar{Y})^2/(p-1)}{\sum_{i=1}^p \sum_{j=1}^{n_i}(\bar{Y_{ij}}-\bar{Y})^2/ \sum_{i=1}^p(n_i-1)} \sim F_{p-1,N-p}$$

$N = \sum_{i=1}^p n_i $ (총관측치)