생각 작업실 The atelier of thinking

89. 분산분석 - 등분산성 본문

통계학 이야기

89. 분산분석 - 등분산성

knowledge-seeker 2024. 7. 4. 11:00

Chapter 89. 분산분석 - 등분산성

 

분산분석의 기본적인 가정은 등분산성, 정규성, 독립성 이라 할 수 있습니다.
이 가정이 충족하지 못한다면, 분산분석 결과가 편향되거나 부정확해질 수 있습니다. 따라서 이 가정이 충족되는지 여부를 파악하는 것은 분산분석 결과의 신뢰성을 보장하는 데 매우 중요합니다.

 


 

1. 등분산성 확인

 

분산분석(ANOVA)은 등분산성 가정을 전제로 하고 있습니다. 등분산성이 충족되지 않으면 ANOVA의 결과가 신뢰할 수 없게 됩니다.

아래는 일원배치 분산분석 모형식입니다.

 

Yij=μi+ϵij

ϵijiidN(0,σ2)

 

(1) 잔차그림

 

오차를 알 수 없기 때문에 잔차를 대신 사용합니다.

 

eij=Yij¯Yi


오차에 대해서 잔차를 이용해서 등분산성 등의 가정을 만족하는지 확인합니다.
이러한 것을 잔차검진, 잔차진단,모형진단 등으로 말합니다.

등분산성을 확인하기 위한 방법 중 하나는 잔차그림(Residual Plot)을 사용하는 것입니다. 잔차그림은 잔차(실제 값과 예측 값의 차이)을 y축에, 예측 값(또는 그룹 평균)을 x축에 표시한 그래프입니다. 이 그래프를 통해 잔차의 분포가 예측 값에 따라 일정한 모양을 보이는지 확인할 수 있습니다. 잔차들 간에는 항상 상관관계가 존재합니다.

R을 이용해 잔차그림을 그리면 아래와 같습니다.

 

◈ 예제 : 사료에 따른 체중증가 실험

 

지난 회차 R을 이용한 분산분석에서 사용했던 자료입니다.

 

2024.07.03 - [통계학 이야기] - 88. R을 이용한 분산분석(ANOVA)

 

88. R을 이용한 분산분석(ANOVA)

Chapter 88. R을 이용한 분산분석(ANOVA) 1. 일원배치 분산분석 분산분석(ANOVA, Analysis of Variance)은 세 개 이상의 그룹 간의 평균차이를 비교 하는 통계적 기법입니다. 일원배치 분산분석(One-

thinking-atelier.tistory.com

 

rats.csv
0.00MB

 

rats <- read.csv("rats.csv",header = TRUE, fileEncoding = "CP949",
                 encoding = "UTF-8")
rats$사료 <- as.factor(rats$사료)
result <- lm(체중증가~사료,data=rats)
#각 수준의 잔차
resid <- residuals(result)   # result$residuals
# 각 수준의 평균
yhat <- fitted(result)   # result$fitted.values

# 잔차그림
plot(yhat,resid,xlab=expression(hat(y)),ylab="e",
     col=c("skyblue",'orange','green','pink'))
abline(h=0)
  • residuals() : 회귀 모형에서 추정된 값과 실제 값 간의 잔차를 계산
  • fitted() : 모형에 의해 예측된 값, 즉 적합값을 반환

 

그림상으로 잔차들의 분산은 얼추 비슷해보이므로 등분산성을 확인할 수 있습니다.
잔차를 그림으로 나타낸 것으로 직관적으로 등분산성을 확인해볼 수 있습니다.

 

(2) Hartley 검정

 

아래는 Hartley 의 검정 통계량입니다.

 

H=max(S2i)min(S2i)H(p,n1)

:H>H(1α,p,n1)


위 방법은 아래의 단계로 진행됩니다.


① 각 그룹의 표준편차를 계산합니다.
② 각 그룹의 표준편차를 비교하여 최대 표준편차와 최소 표준편차의 비율을 계산합니다.
③ 이 비율을 Hartley의 F 비율이라고 하며, 모든 그룹의 표준편차를 비교하는 방법입니다.
④ Hartley의 F 비율이 특정 임계값보다 작으면 등분산성 가정을 만족한다고 판단합니다.

Hartley의 등분산성 검정은 간단하고 직관적이지만, 그룹의 수가 많고 정규성을 만족하는 경우에만 신뢰할 수 있는 방법입니다. 또한, Hartley의 F 비율이 임계값보다 큰 경우 등분산성 가정이 깨졌다는 것을 명확히 보여주지만, 작은 경우에는 등분산성을 판단하기가 어려울 수 있습니다.

 

◈ 예제 : 사료에 따른 체중증가 실험

 

방법 쇠고기
저단백
쇠고기
고단백
시리얼
저단백
시리얼
고단백
반복 90  76

90  64

86  51

72  90

95  78
73  102

118 104

 81  107

100  87

 117  111
107  95

  97   80

  98  74

   74   67

   89   58
98  74

 56  111

95  88

82  77

86  92
792 1000 839 859

 

S2i=(192.84,229.11,246.77,225.66)

h=246.77192.84=1.280<6.31=H(0.95,4,9)

 

등분산성이 만족함을 확인할 수 있습니다.

 

(3) Bartlett 검정

 

아래는 Bartlett 검정 통계량입니다.

 

χ20=2.3026qcχ2p1

q=(Np)log10MSE(ni1)log10S2i

c=1+13(p1)(1ni11Np)


Bartlett 검정의 귀무가설은 "모든 그룹의 모집단 분산은 동일하다"는 것이며, 대립가설은 "최소한 하나의 그룹의 모집단 분산이 다른 그룹과 다르다"는 것입니다. 검정 결과 유의수준에서 귀무가설을 기각하면, 그룹 간에 등분산성이 없다는 결론을 내릴 수 있습니다.

Bartlett 검정은 다음과 같은 한계가 있습니다.
정규성 가정을 만족해야 합니다.
표본의 크기가 크고 그룹의 수가 많을수록 검정력이 강해집니다.
이상치에 민감할 수 있습니다.

따라서 Bartlett 검정은 등분산성 가정을 확인하는 간단하고 널리 사용되는 방법 중 하나이지만, 검정에 사용되는 데이터가 정규분포를 따르고 이상치가 없는지 확인하는 것이 중요합니다.

R 코드를 사용하여 확인해 볼 수 있습니다.

 

bartlett.test(체중증가~사료,data=rats)

 

	Bartlett test of homogeneity of variances

data:  체중증가 by 사료
Bartlett's K-squared = 0.13584, df = 3, p-value = 0.9872

 

p-value가 0.9872 이므로 귀무가설을 기각할 수 없습니다. 즉 등분산성을 따른다고 할 수 있습니다.

 


 

2. 정규성 확인

 

정규성은 Shapiro-Wilk, Jarque-Bera 등의 방법으로 확인할 수 있습니다.

R을 이용하여 검정할 수 있습니다.

 

shapiro.test(resid)
Shapiro-Wilk normality test

data:  resid
W = 0.96144, p-value = 0.1875

 

잔차항이 정규성을 따른다고 할 수 있습니다.