생각 작업실 The atelier of thinking

93. 이원배치 분산분석(Two-Way ANOVA) 본문

통계학 이야기

93. 이원배치 분산분석(Two-Way ANOVA)

knowledge-seeker 2024. 7. 9. 17:18

Chapter 93. 이원배치 분산분석(Two-Way ANOVA)

 

분산분석(ANOVA, Analysis of Variance)은 세 개 이상의 그룹 간의 평균 차이를 비교하는 통계적 기법입니다.

분산분석(ANOVA)을 반응변수(종속변수)의 수에 따라, 설명변수(독립변수)의 수에 따라 분류할 수 있습니다.

 

 

일원배치 분산분석 (One-Way ANOVA)은 한 개의 설명(독립)변수(요인)가 있는 경우에 적용됩니다. 이 요인의 각 수준(그룹) 간의 반응(종속)변수의 평균 차이를 비교합니다.

 

 


 

1. 이원배치 분산분석(Two-Way ANOVA)

 

이원배치 분산분석은 두 개의 설명(독립)변수(요인)가 있는 경우에 적용됩니다. 이 요인들의 각 수준 조합에 대한 종속변수의 평균 차이를 비교합니다.

 

 

 

일원배치 분산분석은 독립변수가 하나인 경우이고, 이원배치 분산분석은 독립변수가 두 개인 경우 입니다. 두 경우 모두 종속변수는 하나입니다.

 

(1) 실험 설계

 

요인(설명변수,독립변수)이 두 개이고 각 처리(수준)에 하나의 관측값(반응변수,종속변수)이 있는 경우 각 요인의 처리 효과를 확인하기 위한 모형을 설정합니다.

 

 

요인(독립변수)1의 수준 수는 p 개, 요인(독립변수)2의 수준 수는 q 개라 한다면, pXq 개의 처리를 완전 확률화하여 실험을 진행합니다.

 

(2) 자료 구조

 

위 실험으로 나오는 자료 구조는 아래와 같이 나타낼 수 있습니다.

 

요인 1 요인 2
1 2 ... q
1 $Y_{11}$ $Y_{12}$ ... $Y_{1q}$
2 $Y_{21}$ $Y_{22}$ ... $Y_{2q}$
... ... ... ... ...
p $Y_{p1}$ $Y_{p2}$ ... $Y_{pq}$

 

이 경우는 반복이 없는 경우입니다.

반복이 있는 경우의 자료 구조는 아래와 같이 나타낼 수 있습니다.

 

요인 1 요인 2
1 2 ... q
1 $Y_{111}$
$Y_{112}$
...
$Y_{11n}$
$Y_{121}$
$Y_{122}$
...
$Y_{12n}$
... $Y_{1q1}$
$Y_{1q2}$
...
$Y_{1qn}$
2 $Y_{211}$
$Y_{212}$
...
$Y_{21n}$
$Y_{221}$
$Y_{222}$
...
$Y_{22n}$
... $Y_{2q1}$
$Y_{2q2}$
...
$Y_{2qn}$
... ... ... ... ...
p $Y_{p11}$
$Y_{p12}$
...
$Y_{p1n}$
$Y_{p21}$
$Y_{p22}$
...
$Y_{p2n}$
... $Y_{pq1}$
$Y_{pq2}$
...
$Y_{pqn}$

 

 


 

2. 반복이 없는 경우 모형식

 

이원배치 분산분석에서 반복이 없는 경우, 각 요인이 두 개이고 각 처리에 하나의 관측값이 있는 경우, 모형은 다음과 같이 설정됩니다.

 

$$Y_{ij}=\mu + \alpha_i + \beta_i + \epsilon_{ij}$$

 

각 항은 아래와 같습니다.

 

$\mu :$ 전체평균, $\epsilon \sim N(0,\sigma^2)$

$\alpha_i : $ 요인 A의 i 번째 처리효과, $\sum \alpha_i = 0$

$\beta_i : $ 요인 B의 j 번째 처리효과, $\sum \beta_i = 0$


각 처리에 대해 하나의 관측값이 있으므로 처리 효과만을 고려합니다.

반복이 없는 이원배치 분산분석은 일원배치 분산분석을 확장한 개념으로 설명할 수 있습니다. 즉, 처리효과가 하나인 일원배치 분산분석 모형식에 처리효과가 하나 더 추가된 것이라 할 수 있습니다.

 

◈ 예시 : 토마토 재배에 대한 일원배치 분산분석 vs 이원배치 분산분석

(1) 일원배치 분산분석

독립 변수 : 물 주입량(적음, 보통, 많음)
종속 변수 : 토마토 수확량
분석 목적 : 물 주입량이 토마토 수확량에 미치는 영향을 비교하여 유의한 차이가 있는지 확인

(2) 이원배치 분산분석

독립 변수 1 : 물 주입량(적음, 보통, 많음)
독립 변수 2 : 비료 종류(무기비료, 유기비료, 혼합비료)
종속 변수 : 토마토 수확량
분석 목적 : 물 주입량과 비료 종류에 따라 토마토 수확량에 미치는 영향을 동시에 비교하고, 두 변수 간의 상호작용 효과도 고려하여 토마토 수확량에 영향을 평가

이러한 분석을 통해 각 요인이 토마토의 생산량에 미치는 영향을 정량화하고, 토마토 재배에서 최적의 조건을 찾을 수 있습니다.

 


 

3. 요인의 수준선택

 

요인의 수준선택 방법에 따라 아래와 같이 구분할 수 있습니다.

 

(1) 고정효과모형

 

두 요인 모두 실험자가 결정하는 경우를 말합니다.

 

(2) 변량효과모형

 

두 요인 모두 무작위 선택하는 경우를 말합니다.

 

(3) 혼합효과모형(Mixed Effect Models)

 

요인 하나는 실험자가 결정하고 다른 하나는 무작위 선택을 하는 경우를 말합니다.

각 모형별 분산분석은 동일하지만, 고정효과모형은 평균에 대한 추론에 초점을 맞추고 변량효과모형은 주로 변동성에 대한 추론에 초점을 두고 있습니다. 연구 목적에 따라 적합한 모형을 선택하여 추론을 하게 됩니다.