96. 반복이 없는 이원배치 분산분석 III

통계학 이야기

96. 반복이 없는 이원배치 분산분석 III

knowledge-seeker 2024. 7. 16. 09:22

Chapter 96. 반복이 없는 이원배치 분산분석 III

이원배치 분산분석은 두 개의 설명(독립)변수(요인)가 있는 경우에 적용됩니다.

요인(설명변수,독립변수)이 두 개이고 각 처리(수준)에 하나의 관측값(반응변수,종속변수)이 있는 경우 각 요인의 처리효과를 확인하기 위한 모형을 설정합니다.

1. 혼합효과모형 ( Mixed Effect Model )

혼합효과모형이란 고정효과모형과 변량효과모형의 특성을 혼합한 모형입니다. 이 모형은 하나의 요인은 고정효과로 취급하고 다른 요인은 변량효과로 취급합니다.

(1) 모형식

이원배치 분산분석의 모형식은 아래와 같습니다.

$$ Y_{ij} = \mu + \alpha_i + \beta_j + \epsilon_{ij}$$

위 모형에서 요인 A는 고정효과모형을 요인B는 변량효과모형을 따른다고 했을 때, 모형식은 아래와 같이 나타낼 수 있습니다.

$$ Y_{ij} = \mu +( \mu_{i+} - \mu) + \beta_j + \epsilon_{ij}$$

위 모형식에서의 각 항에 대하여 아래와 같이 나타낼 수 있습니다.

$ \mu : $ 전체 평균

$ \epsilon_{ij} \sim iid N ( 0, \sigma^2) $

$ \mu_{i+} : $ 요인 A의 i 번째 수준평균

$ \beta_j \sim iid N ( 0, \sigma_B^2) $

이 때, $ \beta_j, \epsilon_{ij}$ 은 서로 독립입니다.

(2) 모형식의 특징

위 모형식에서 요인 A는 고정효과모형으로 상수로 나타나고, 요인 B는 확률변수이므로, 아래와 같은 성질을 가지게됩니다.

$$ E(Y_{ij}) = \mu $$

$$ Var(Y_{ij}) = \sigma_B^2 + \sigma^2$$

우선 기대값은 $\mu$이고 분산은 요인 A의 분산은 상수이므로 요인B의 분산만 더하게 됩니다.

공분산과 상관계수 역시 요인 B의 분산만 적용하면 아래와 같이 나타낼 수 있습니다.

또한 같은 요인내에서의 공분산은 아래와 같습니다.

$$ Cov(Y_{ij}, Y_{kj}) = \sigma_B^2 $$

요인 B의 상관관계는 아래와 같이 나타낼 수 있습니다.

$$ Cor(Y_{ij}, Y_{kj}) = \rho(B) = \frac{\sigma_B^2}{\sigma_B^2 + \sigma^2} $$

2. 혼합효과모형에서의 통계적 추론

(1) 혼합효과모형에서의 관심사항

혼합효과모형은 하나의 요인은 고정효과모형을 다른 하나의 요인은 변량효과모형을 사용합니다. 따라서 고정효과모형에서는 평균들의 차이, 변량효과모형에서는 분산이 0인지 아닌지가 관심사항이라 할 수 있습니다.

(2) 가설 설정

고정효과모형을 적용한 요인 A와 변량효과모형을 적용한 요안 B의 귀무가설은 아래와 같이 설정할 수 있습니다.

$$H_{A0} : \alpha_1 = \alpha_2 = ...=\alpha_p = 0 $$

$$H_{B0} : \sigma_B^2 = 0 $$

(3) 분산분석표

분산분석표에서 F 검정값을 확인하여 각각의 처리효과 유무를 판단하게 됩니다.
이 때, 유의하지 않는 요인의 처리효과가 있다면, 오차에 흡수시켜 다시 분석하게 됩니다.

변동요인	자유도	제곱합	평균제곱	F-통계량
처리 A	p-1	SSA	MSA	MSA/MSE
처리 B	q-1	SSB	MSB	MSB/MSE
오차	(p-1)(q-1)	SSE	MSE
전체	N-1	TSS

(4) 모수 추정

위 분산분석표의 평균제곱은 아래와 같이 추정할 수 있습니다.

$$ E(MSE) = \sigma^2 $$

$$ E(MSA) = \sigma^2 + q\sum \alpha_i^2/(p-1) $$

$$ E(MSB) = \sigma^2 + p\sigma_B^2 $$

$\implies$ MSE보다 MSA(MSB)가 크다면 $\alpha_i \not= 0 (\sigma_B^2>0 )$ 일 가능성이 높아진다는 의미입니다.

요인 A의 평균들의 구간추정은 아래와 같습니다.

$\mu(A_i)$의 구간 추정 : $\bar{Y_i} \pm t_{\alpha/2(p-1)(q-1)} \sqrt{MSE/q}$

요인 B의 처리효과가 없는 경우에는 아래와 같습니다.

$$\bar{Y_i} \pm t_{\alpha/2(p-1)q)} \sqrt{MSE_A/q}$$

요인 B의 분산에 대한 추정은 아래와 같습니다.

$$\hat{\sigma}_B^2 = max \left(0, \frac{MSA-MSE}{p} \right)$$

요인 A의 처리효과가 없는 경우에는 아래와 같습니다.

$$ \hat{\sigma}_B^2 = \frac{MSA-MSE_B}{p}$$

요인 B의 상관계수는 아래와 같이 추정할 수 있습니다.

$$\hat{\rho}(B) = \frac{q(MSB - MSE)}{pMSA + qMSB +((p-1)(q-1)-1)MSE} $$

요인 A의 처리효과가 없을 때 상관계수는 아래와 같이 추정할 수 있습니다.

$$\hat{\rho}(B) = \frac{MSB}{MSB +(p-1)MSE_B} $$

혼합효과모형은 고정효과모형과 변량효과모형을 각각의 요인에 적용된 방법으로 혼합하여 사용하는 것이라 말할 수 있습니다.