일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 반복없음
- version 2
- html
- JavaScript
- 오블완
- 통계학
- 반복있음
- r
- 해운업
- 고정효과모형
- 티스토리챌린지
- 경제학
- 정규분포
- 글쓰기
- 인공지능
- 변량효과모형
- 에세이
- 산점도
- 혼합효과모형
- version 1
- css
- 이항분포
- 이원배치 분산분석
- 회귀분석
- 변동분해
- 추정
- 데이터 과학
- 확률
- 가설검정
- 분산분석
- Today
- Total
생각 작업실 The atelier of thinking
89. 분산분석 - 등분산성 본문
Chapter 89. 분산분석 - 등분산성
분산분석의 기본적인 가정은 등분산성, 정규성, 독립성 이라 할 수 있습니다.
이 가정이 충족하지 못한다면, 분산분석 결과가 편향되거나 부정확해질 수 있습니다. 따라서 이 가정이 충족되는지 여부를 파악하는 것은 분산분석 결과의 신뢰성을 보장하는 데 매우 중요합니다.
1. 등분산성 확인
분산분석(ANOVA)은 등분산성 가정을 전제로 하고 있습니다. 등분산성이 충족되지 않으면 ANOVA의 결과가 신뢰할 수 없게 됩니다.
아래는 일원배치 분산분석 모형식입니다.
Yij=μi+ϵij
ϵij∼iidN(0,σ2)
(1) 잔차그림
오차를 알 수 없기 때문에 잔차를 대신 사용합니다.
eij=Yij−¯Yi
오차에 대해서 잔차를 이용해서 등분산성 등의 가정을 만족하는지 확인합니다.
이러한 것을 잔차검진, 잔차진단,모형진단 등으로 말합니다.
등분산성을 확인하기 위한 방법 중 하나는 잔차그림(Residual Plot)을 사용하는 것입니다. 잔차그림은 잔차(실제 값과 예측 값의 차이)을 y축에, 예측 값(또는 그룹 평균)을 x축에 표시한 그래프입니다. 이 그래프를 통해 잔차의 분포가 예측 값에 따라 일정한 모양을 보이는지 확인할 수 있습니다. 잔차들 간에는 항상 상관관계가 존재합니다.
R을 이용해 잔차그림을 그리면 아래와 같습니다.
◈ 예제 : 사료에 따른 체중증가 실험
지난 회차 R을 이용한 분산분석에서 사용했던 자료입니다.
2024.07.03 - [통계학 이야기] - 88. R을 이용한 분산분석(ANOVA)
88. R을 이용한 분산분석(ANOVA)
Chapter 88. R을 이용한 분산분석(ANOVA) 1. 일원배치 분산분석 분산분석(ANOVA, Analysis of Variance)은 세 개 이상의 그룹 간의 평균차이를 비교 하는 통계적 기법입니다. 일원배치 분산분석(One-
thinking-atelier.tistory.com
rats <- read.csv("rats.csv",header = TRUE, fileEncoding = "CP949",
encoding = "UTF-8")
rats$사료 <- as.factor(rats$사료)
result <- lm(체중증가~사료,data=rats)
#각 수준의 잔차
resid <- residuals(result) # result$residuals
# 각 수준의 평균
yhat <- fitted(result) # result$fitted.values
# 잔차그림
plot(yhat,resid,xlab=expression(hat(y)),ylab="e",
col=c("skyblue",'orange','green','pink'))
abline(h=0)
- residuals() : 회귀 모형에서 추정된 값과 실제 값 간의 잔차를 계산
- fitted() : 모형에 의해 예측된 값, 즉 적합값을 반환

그림상으로 잔차들의 분산은 얼추 비슷해보이므로 등분산성을 확인할 수 있습니다.
잔차를 그림으로 나타낸 것으로 직관적으로 등분산성을 확인해볼 수 있습니다.
(2) Hartley 검정
아래는 Hartley 의 검정 통계량입니다.
H∗=max(S2i)min(S2i)∼H(p,n−1)
기각역:H∗>H(1−α,p,n−1)
위 방법은 아래의 단계로 진행됩니다.
① 각 그룹의 표준편차를 계산합니다.
② 각 그룹의 표준편차를 비교하여 최대 표준편차와 최소 표준편차의 비율을 계산합니다.
③ 이 비율을 Hartley의 F 비율이라고 하며, 모든 그룹의 표준편차를 비교하는 방법입니다.
④ Hartley의 F 비율이 특정 임계값보다 작으면 등분산성 가정을 만족한다고 판단합니다.
Hartley의 등분산성 검정은 간단하고 직관적이지만, 그룹의 수가 많고 정규성을 만족하는 경우에만 신뢰할 수 있는 방법입니다. 또한, Hartley의 F 비율이 임계값보다 큰 경우 등분산성 가정이 깨졌다는 것을 명확히 보여주지만, 작은 경우에는 등분산성을 판단하기가 어려울 수 있습니다.
◈ 예제 : 사료에 따른 체중증가 실험
방법 | 쇠고기 저단백 |
쇠고기 고단백 |
시리얼 저단백 |
시리얼 고단백 |
반복 | 90 76 90 64 86 51 72 90 95 78 |
73 102 118 104 81 107 100 87 117 111 |
107 95 97 80 98 74 74 67 89 58 |
98 74 56 111 95 88 82 77 86 92 |
합 | 792 | 1000 | 839 | 859 |
S2i=(192.84,229.11,246.77,225.66)
h∗=246.77192.84=1.280<6.31=H(0.95,4,9)
등분산성이 만족함을 확인할 수 있습니다.
(3) Bartlett 검정
아래는 Bartlett 검정 통계량입니다.
χ20=2.3026qc∼χ2p−1
q=(N−p)log10MSE−∑(ni−1)log10S2i
c=1+13(p−1)(∑1ni−1−1N−p)
Bartlett 검정의 귀무가설은 "모든 그룹의 모집단 분산은 동일하다"는 것이며, 대립가설은 "최소한 하나의 그룹의 모집단 분산이 다른 그룹과 다르다"는 것입니다. 검정 결과 유의수준에서 귀무가설을 기각하면, 그룹 간에 등분산성이 없다는 결론을 내릴 수 있습니다.
Bartlett 검정은 다음과 같은 한계가 있습니다.
정규성 가정을 만족해야 합니다.
표본의 크기가 크고 그룹의 수가 많을수록 검정력이 강해집니다.
이상치에 민감할 수 있습니다.
따라서 Bartlett 검정은 등분산성 가정을 확인하는 간단하고 널리 사용되는 방법 중 하나이지만, 검정에 사용되는 데이터가 정규분포를 따르고 이상치가 없는지 확인하는 것이 중요합니다.
R 코드를 사용하여 확인해 볼 수 있습니다.
bartlett.test(체중증가~사료,data=rats)
Bartlett test of homogeneity of variances
data: 체중증가 by 사료
Bartlett's K-squared = 0.13584, df = 3, p-value = 0.9872
p-value가 0.9872 이므로 귀무가설을 기각할 수 없습니다. 즉 등분산성을 따른다고 할 수 있습니다.
2. 정규성 확인
정규성은 Shapiro-Wilk, Jarque-Bera 등의 방법으로 확인할 수 있습니다.
R을 이용하여 검정할 수 있습니다.
shapiro.test(resid)
Shapiro-Wilk normality test
data: resid
W = 0.96144, p-value = 0.1875
잔차항이 정규성을 따른다고 할 수 있습니다.
'통계학 이야기' 카테고리의 다른 글
91. 분산분석 - 선형대비(Linear Contrast) (0) | 2024.07.07 |
---|---|
90. 분산분석 - 다중비교(Multiple Comparison) (1) | 2024.07.05 |
88. R을 이용한 분산분석(ANOVA) (1) | 2024.07.03 |
87. 분산분석 - 변동분해 (1) | 2024.07.02 |
85. 일원배치 분산분석(One-Way ANOVA) (1) | 2024.06.28 |