생각 작업실 The atelier of thinking

85. 일원배치 분산분석(One-Way ANOVA) 본문

통계학 이야기

85. 일원배치 분산분석(One-Way ANOVA)

knowledge-seeker 2024. 6. 28. 14:37

Chapter 85. 일원배치 분산분석(One-Way ANOVA)

 

분산분석(ANOVA, Analysis of Variance)은 세 개 이상의 그룹 간의 평균차이를 비교 하는 통계적 기법입니다.

분산분석은 반응변수(종속변수)의 수에 따라 단일변량 분산분석과 다변량 분산분석으로 분류할 수 있습니다.

다시 단일변량 분산분석은 설명변수(독립변수)의 수에 따라 일원배치 분산분석, 이원배치 분산분석 그리고 다원배치 분산분석으로 분류할 수 있습니다.

 

 

 

이번 회차에서는 반응변수(종속변수)가 하나이고 설명변수(독립변수)가 하나인 일원배치 분산분석에 대해 알아보겠습니다.

 


1. 일원배치 분산분석 (One-way ANOVA)

 

일원배치 분산분석(One-way ANOVA)은 한 개의 설명(독립)변수(요인)가 하나의 반응(종속)변수에 미치는 영향을 분석하는 통계 기법입니다. 일원배치 분산분석에서는 독립변수가 세 개 이상의 수준(그룹)을 가지며, 각 수준에서의 종속변수의 평균을 비교하여 그룹 간의 차이가 통계적으로 유의한지를 검정합니다.

완전확률화 설계(Completely randomized design)란 실험 단위의 배치 또는 실험순서에 있어 확률화의 원리에 충실해야 한다는 것입니다.

 

◈ 예제 : 사료에 따른 체중증가 실험

 

한 실험자가 4종류의 사료에 따라 체중증가에 미치는 영향을 알고 싶어합니다.

이 실험에서 독립변수(요인)은 사료입니다. 그룹 혹은 수준(처리)의 수는 4 종류이고, 반응변수(종속변수)는 체증증가라고 할 수 있습니다.
실험 대상으로 쥐를 선정하고 할당하는 과정은 완전확률화 설계에 따라 랜덤(random)하게 이루어져야 합니다.

이 때 비교대상은 4종류 사료별 체증증가의 평균이 됩니다.

모든 수준에 대해 반복수가 같을(balanced) 필요는 없으나 반복수가 같으면 통계적분석에 있어 편리한 점이 많습니다.

자료의 형태는 아래와 같습니다.

 

관측값 그룹1 그룹2 ... 그룹p
1 $Y_{11}$ $Y_{21}$ ... $Y_{p1}$
2 $Y_{12}$ $Y_{22}$ ... $Y_{p1}$
... ... ... ... ...
n $Y_{1n}$ $Y_{2n}$ ... $Y_{pn}$
표본평균 $\bar{Y_1}$ $\bar{Y_2}$ ... $\bar{Y_p}$

 

 

 


 

2. 고정효과모형(Fixed Effect Model)

 

고정효과모형은 각 처리 수준에 대한 평균이 특정한 값으로 고정된다고 가정합니다. 즉, 각 처리 수준의 평균에 대한 추론을 하기 위해 사용됩니다. 이 모형은 처리 조건의 효과를 직접적으로 비교하고자 할 때 유용합니다.

고정효과모형은 요인은 하나이고 수준은 실험자가 결정하는 모형입니다.

 

(1) 요인의 수준을 실험자가 결정한다.

 

처리효과에 대한 결론은 고려된 요인의 수준에서만 적용됩니다.

 

(2) 모형에 대한 가정

 

모형에서의 기본적인 가정은 독립변수들은 서로 독립이라는 것입니다.
각 처리 수준에서의 오차항은 서로 독립이어야 합니다. 이는 한 처리 수준의 오차항이 다른 처리 수준의 오차항과 상관관계가 없음을 의미합니다.
오차항은 정규분포를 따라야 합니다. 즉, 평균이 0이고 일정한 분산을 가지는 정규분포를 따라야 합니다.

 

$Y_{ij} : i$ 번째 처리(수준)을 받은 $j$번째 개체의 반응변수 값

$Y_{ij} \sim N(\mu_i , \sigma^2) $,  이 때 $Y_{ij} $들은 독립입니다.

오차(Error)는 $Y_{ij}-\mu_i = \epsilon_{ij}$ 이고, 정규분포를 따릅니다.  $\epsilon_{ij} \sim iid N(0,\sigma^2)$  

 

(3) 모형식

 

고정효과모형의 모형식은 아래와 같이 나타낼 수 있습니다.

 

 $i = 1,2,...,p, \quad j = 1,2,...,n_i$ 일 때,

$$Y_{ij} = \mu_i + \epsilon_{ij}$$

$$ = \mu + (\mu_i-\mu)+\epsilon_{ij}$$

$$=\mu+\alpha_i+\epsilon_{ij}$$

 

이 때, 각 항은 아래와 같습니다.

 

$\mu$는 전체 모평균을 말합니다.

$\alpha_i$는 $i$번째 처리효과로 $\mu_i-\mu$ 로 나타내고, 모든 처리효과의 합은 0 입니다. $\sum \alpha_i = 0$

$\epsilon_{ij}$는 오차항을 말하며 관측값과 모델사이의 잔차를 말합니다.

 


 

 

3. 고정효과모형에서의 통계적 추론

 

(1) 처리효과가 있는지에 대한 가설검정

 

고정효과모형에서의 "처리 효과"는 각 처리 수준이 종속 변수에 미치는 영향을 나타냅니다. 이는 각 처리 수준 간의 평균적인 차이를 의미하며, 이러한 차이가 우연에 의한 것인지 통계적으로 유의한 차이인지를 파악하는 데 사용됩니다. 따라서 고정효과모형을 사용하여 처리 효과가 있는지 여부를 확인할 수 있습니다.

▶ 처리효과가 없다면 각 수준의 평균이 전체평균과 같다는 것에 대한 가설검정을 통해서 확인할 수 있습니다.

$$\implies H_0 : \alpha_1 = \alpha_2 = ... = \alpha_p = 0 $$

$$(H_0: \mu_1=\mu_2=...=\mu_p ) $$


▶ 처리효과가 있다면, 어떤 수준끼리 차이가 있는지 확인할 수 있습니다.

 

$$ \implies H_0: \mu_i = \mu_j , i \not= j $$


▶ 처리효과가 있다면, 처리 효과를 추정할 수 있습니다.

 

(2) 가설설정


가설설정시에 평균이 같다는 것은 처리효과가 0 이라는 것과 같은 의미라 할 수 있습니다.

 

$$H_0: \mu_1=\mu_2=...=\mu_p$$

$$\implies H_0 : \alpha_1 = \alpha_2 = ... = \alpha_p = 0 $$

 

 

(3) 검정통계량

 

$Y_{ij} : i$번째 그룹의 $j$번째 관측값, $i = 1,2,...,p, \quad j = 1,2,...,n$

$\bar{Y_i} : i$번째 그룹의 표본평균,  $\bar{Y}:$ 전체 관측값의 평균

$$F_0=\frac{\sum_{i=1}^p n_i(\bar{Y_i}-\bar{Y})^2/(p-1)}{\sum_{i=1}^p \sum_{j=1}^{n_i}(\bar{Y_{ij}}-\bar{Y})^2/ \sum_{i=1}^p(n_i-1)} \sim F_{p-1,N-p}$$

$N = \sum_{i=1}^p n_i $ (총관측치)

 

(4) 검정통계량의 분포와 유의수준을 비교 검토합니다.

 

 유의수준을 $\alpha$라고 하면 기각역 $ \begin{cases} ① (F_{\alpha,p-1,N-p},\infty ) \\ ② (0,F_{1-\alpha,p-1,N-p}) \\ ③(0,F_{1-\alpha/2,p-1,N-p}),(F_{1-\alpha/2,p-1,N-p},\infty) \end{cases} $

 

(5) 결론

 

기각역(비정상영역) : 귀무가설 기각 (대립가설 채택)
채택역(정상영역) : 귀무가설 유지 (대립가설 기각)

 


 

4. 변동 분해 (Decomposition of Variance)

 

변동분해(Decomposition of Variance)는 분산분석(ANOVA)에서 사용되는 개념으로, 종속변수의 총 변동을 처리 간 변동과 처리 내 변동으로 나누는 과정을 의미합니다. 이 과정은 데이터의 변동을 처리 효과와 잔차(오차)로 설명하는 데 도움이 됩니다.

앞서 모형식은 아래와 같이 나눠 볼 수 있습니다.

 

$$Y_{ij}=\mu_i+\epsilon_{ij}=\mu+(\mu_i-\mu)+\epsilon_{ij}$$$$\bar{Y} \implies \mu , \quad \bar{Y_i} \implies \mu_i $$$$\epsilon_{ij}=Y_{ij}-\mu_i \implies e_{ij} = Y_{ij}-\bar{Y_i} : 잔차(residuals)$$

 

잔차는 관측값에서 해당수준의 표본평균을 뺀 값이 된다.

모형식을 추정량으로 표시하면,

 

$$Y_{ij}-\bar{Y} = \bar{Y_i}-\bar{Y}+Y_{ij}-\bar{Y_i}$$
종속변수의 총 변동을 처리 간 변동(처리별 평균 - 전체평균)과 처리 내 변동(관측값 - 처리별 평균)으로 나누어 볼 수 있습니다.

 


◈ 예제 : 사료에 따른 체중증가 실험

 

방법 쇠고기
저단백
쇠고기
고단백
시리얼
저단백
시리얼
고단백
반복 90  76

90  64

86  51

72  90

95  78
73  102

118 104

 81  107

100  87

 117  111
107  95

  97   80

  98  74

   74   67

   89   58
98  74

 56  111

95  88

82  77

86  92
792 1000 839 859

 

 

요인 : 사료, 수준(처리)의 수 : 4 , 반응변수 : 체중증가

반복수 : 각 10 회

 

▶ 처리효과에 대한 가설검정

① 가설설정

 

$$H_0: \mu_1=\mu_2=...=\mu_p$$

$$\implies H_0 : \alpha_1 = \alpha_2 = ... = \alpha_p = 0 $$


② 주요통계량

 

 - 전체 평균 $\bar{Y} = \frac{3,490}{40} = 87.25$

 - 각 수준별 평균 $\bar{Y_i} = 79.2 , 100, 83.9, 85.9 $ 

 - $\sum_{i=1}^p n_i(\bar{Y_i}-\bar{Y})^2=\sum_{i=1}^4 10(\bar{Y}-87.25)^2 = 2,404.1$

 - $\sum_{i=1}^p \sum_{j=1}^{n_i}(\bar{Y_{ij}} -\bar{Y_i})^2= \sum_{i=1}^4\sum_{j=1}^10(\bar{Y_{ij}}-\bar{Y_i})^2 = 8,049.4$ 

 


③ 검정통계량

 

$$F_0=\frac{\sum_{i=1}^p n_i(\bar{Y_i}-\bar{Y})^2/(p-1)}{\sum_{i=1}^p \sum_{j=1}^{n_i}(\bar{Y_{ij}}-\bar{Y})^2/ \sum_{i=1}^p(n_i-1)}$$

$$F_0=\frac{2,404.1/3)}{8,049.4/ 36} = 3.584$$


④ F-검정

 

$$ F_0 = 3.584 > 2.866 = F_{0.05,3,36}$$


⇒ 5% 유의수준에서 귀무가설은 기각합니다. 따라서, 사료에 따라 평균성장량에 유의한 차이가 있음을 알 수 있습니다.

'통계학 이야기' 카테고리의 다른 글

88. R을 이용한 분산분석(ANOVA)  (1) 2024.07.03
87. 분산분석 - 변동분해  (1) 2024.07.02
84. 분산분석 통계모형(Model)  (0) 2024.06.27
83. 분산분석의 검정통계량  (0) 2024.06.26
82. 분산분석(ANOVA)이란  (0) 2024.06.25