생각 작업실 The atelier of thinking

93. 이원배치 분산분석(Two-Way ANOVA) 본문

통계학 이야기

93. 이원배치 분산분석(Two-Way ANOVA)

knowledge-seeker 2024. 7. 9. 17:18

Chapter 93. 이원배치 분산분석(Two-Way ANOVA)

 

분산분석(ANOVA, Analysis of Variance)은 세 개 이상의 그룹 간의 평균 차이를 비교하는 통계적 기법입니다.

분산분석(ANOVA)을 반응변수(종속변수)의 수에 따라, 설명변수(독립변수)의 수에 따라 분류할 수 있습니다.

 

 

일원배치 분산분석 (One-Way ANOVA)은 한 개의 설명(독립)변수(요인)가 있는 경우에 적용됩니다. 이 요인의 각 수준(그룹) 간의 반응(종속)변수의 평균 차이를 비교합니다.

 

 


 

1. 이원배치 분산분석(Two-Way ANOVA)

 

이원배치 분산분석은 두 개의 설명(독립)변수(요인)가 있는 경우에 적용됩니다. 이 요인들의 각 수준 조합에 대한 종속변수의 평균 차이를 비교합니다.

 

 

 

일원배치 분산분석은 독립변수가 하나인 경우이고, 이원배치 분산분석은 독립변수가 두 개인 경우 입니다. 두 경우 모두 종속변수는 하나입니다.

 

(1) 실험 설계

 

요인(설명변수,독립변수)이 두 개이고 각 처리(수준)에 하나의 관측값(반응변수,종속변수)이 있는 경우 각 요인의 처리 효과를 확인하기 위한 모형을 설정합니다.

 

 

요인(독립변수)1의 수준 수는 p 개, 요인(독립변수)2의 수준 수는 q 개라 한다면, pXq 개의 처리를 완전 확률화하여 실험을 진행합니다.

 

(2) 자료 구조

 

위 실험으로 나오는 자료 구조는 아래와 같이 나타낼 수 있습니다.

 

요인 1 요인 2
1 2 ... q
1 Y11 Y12 ... Y1q
2 Y21 Y22 ... Y2q
... ... ... ... ...
p Yp1 Yp2 ... Ypq

 

이 경우는 반복이 없는 경우입니다.

반복이 있는 경우의 자료 구조는 아래와 같이 나타낼 수 있습니다.

 

요인 1 요인 2
1 2 ... q
1 Y111
Y112
...
Y11n
Y121
Y122
...
Y12n
... Y1q1
Y1q2
...
Y1qn
2 Y211
Y212
...
Y21n
Y221
Y222
...
Y22n
... Y2q1
Y2q2
...
Y2qn
... ... ... ... ...
p Yp11
Yp12
...
Yp1n
Yp21
Yp22
...
Yp2n
... Ypq1
Ypq2
...
Ypqn

 

 


 

2. 반복이 없는 경우 모형식

 

이원배치 분산분석에서 반복이 없는 경우, 각 요인이 두 개이고 각 처리에 하나의 관측값이 있는 경우, 모형은 다음과 같이 설정됩니다.

 

Yij=μ+αi+βi+ϵij

 

각 항은 아래와 같습니다.

 

μ: 전체평균, ϵN(0,σ2)

αi: 요인 A의 i 번째 처리효과, αi=0

βi: 요인 B의 j 번째 처리효과, βi=0


각 처리에 대해 하나의 관측값이 있으므로 처리 효과만을 고려합니다.

반복이 없는 이원배치 분산분석은 일원배치 분산분석을 확장한 개념으로 설명할 수 있습니다. 즉, 처리효과가 하나인 일원배치 분산분석 모형식에 처리효과가 하나 더 추가된 것이라 할 수 있습니다.

 

◈ 예시 : 토마토 재배에 대한 일원배치 분산분석 vs 이원배치 분산분석

(1) 일원배치 분산분석

독립 변수 : 물 주입량(적음, 보통, 많음)
종속 변수 : 토마토 수확량
분석 목적 : 물 주입량이 토마토 수확량에 미치는 영향을 비교하여 유의한 차이가 있는지 확인

(2) 이원배치 분산분석

독립 변수 1 : 물 주입량(적음, 보통, 많음)
독립 변수 2 : 비료 종류(무기비료, 유기비료, 혼합비료)
종속 변수 : 토마토 수확량
분석 목적 : 물 주입량과 비료 종류에 따라 토마토 수확량에 미치는 영향을 동시에 비교하고, 두 변수 간의 상호작용 효과도 고려하여 토마토 수확량에 영향을 평가

이러한 분석을 통해 각 요인이 토마토의 생산량에 미치는 영향을 정량화하고, 토마토 재배에서 최적의 조건을 찾을 수 있습니다.

 


 

3. 요인의 수준선택

 

요인의 수준선택 방법에 따라 아래와 같이 구분할 수 있습니다.

 

(1) 고정효과모형

 

두 요인 모두 실험자가 결정하는 경우를 말합니다.

 

(2) 변량효과모형

 

두 요인 모두 무작위 선택하는 경우를 말합니다.

 

(3) 혼합효과모형(Mixed Effect Models)

 

요인 하나는 실험자가 결정하고 다른 하나는 무작위 선택을 하는 경우를 말합니다.

각 모형별 분산분석은 동일하지만, 고정효과모형은 평균에 대한 추론에 초점을 맞추고 변량효과모형은 주로 변동성에 대한 추론에 초점을 두고 있습니다. 연구 목적에 따라 적합한 모형을 선택하여 추론을 하게 됩니다.