일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 산점도
- 반복있음
- 회귀분석
- 이항분포
- 확률
- r
- 정규분포
- 변동분해
- 에세이
- 추정
- html
- css
- 오블완
- version 1
- 이원배치 분산분석
- version 2
- 혼합효과모형
- 변량효과모형
- 통계학
- 고정효과모형
- 인공지능
- 글쓰기
- 데이터 과학
- 경제학
- 해운업
- 가설검정
- 반복없음
- JavaScript
- 티스토리챌린지
- 분산분석
- Today
- Total
생각 작업실 The atelier of thinking
85. 일원배치 분산분석(One-Way ANOVA) 본문
Chapter 85. 일원배치 분산분석(One-Way ANOVA)
분산분석(ANOVA, Analysis of Variance)은 세 개 이상의 그룹 간의 평균차이를 비교 하는 통계적 기법입니다.
분산분석은 반응변수(종속변수)의 수에 따라 단일변량 분산분석과 다변량 분산분석으로 분류할 수 있습니다.
다시 단일변량 분산분석은 설명변수(독립변수)의 수에 따라 일원배치 분산분석, 이원배치 분산분석 그리고 다원배치 분산분석으로 분류할 수 있습니다.

이번 회차에서는 반응변수(종속변수)가 하나이고 설명변수(독립변수)가 하나인 일원배치 분산분석에 대해 알아보겠습니다.
1. 일원배치 분산분석 (One-way ANOVA)
일원배치 분산분석(One-way ANOVA)은 한 개의 설명(독립)변수(요인)가 하나의 반응(종속)변수에 미치는 영향을 분석하는 통계 기법입니다. 일원배치 분산분석에서는 독립변수가 세 개 이상의 수준(그룹)을 가지며, 각 수준에서의 종속변수의 평균을 비교하여 그룹 간의 차이가 통계적으로 유의한지를 검정합니다.
완전확률화 설계(Completely randomized design)란 실험 단위의 배치 또는 실험순서에 있어 확률화의 원리에 충실해야 한다는 것입니다.
◈ 예제 : 사료에 따른 체중증가 실험
한 실험자가 4종류의 사료에 따라 체중증가에 미치는 영향을 알고 싶어합니다.
이 실험에서 독립변수(요인)은 사료입니다. 그룹 혹은 수준(처리)의 수는 4 종류이고, 반응변수(종속변수)는 체증증가라고 할 수 있습니다.
실험 대상으로 쥐를 선정하고 할당하는 과정은 완전확률화 설계에 따라 랜덤(random)하게 이루어져야 합니다.
이 때 비교대상은 4종류 사료별 체증증가의 평균이 됩니다.
모든 수준에 대해 반복수가 같을(balanced) 필요는 없으나 반복수가 같으면 통계적분석에 있어 편리한 점이 많습니다.
자료의 형태는 아래와 같습니다.
관측값 | 그룹1 | 그룹2 | ... | 그룹p |
1 | Y11 | Y21 | ... | Yp1 |
2 | Y12 | Y22 | ... | Yp1 |
... | ... | ... | ... | ... |
n | Y1n | Y2n | ... | Ypn |
표본평균 | ¯Y1 | ¯Y2 | ... | ¯Yp |
2. 고정효과모형(Fixed Effect Model)
고정효과모형은 각 처리 수준에 대한 평균이 특정한 값으로 고정된다고 가정합니다. 즉, 각 처리 수준의 평균에 대한 추론을 하기 위해 사용됩니다. 이 모형은 처리 조건의 효과를 직접적으로 비교하고자 할 때 유용합니다.
고정효과모형은 요인은 하나이고 수준은 실험자가 결정하는 모형입니다.
(1) 요인의 수준을 실험자가 결정한다.
처리효과에 대한 결론은 고려된 요인의 수준에서만 적용됩니다.
(2) 모형에 대한 가정
모형에서의 기본적인 가정은 독립변수들은 서로 독립이라는 것입니다.
각 처리 수준에서의 오차항은 서로 독립이어야 합니다. 이는 한 처리 수준의 오차항이 다른 처리 수준의 오차항과 상관관계가 없음을 의미합니다.
오차항은 정규분포를 따라야 합니다. 즉, 평균이 0이고 일정한 분산을 가지는 정규분포를 따라야 합니다.
Yij:i 번째 처리(수준)을 받은 j번째 개체의 반응변수 값
Yij∼N(μi,σ2), 이 때 Yij들은 독립입니다.
오차(Error)는 Yij−μi=ϵij 이고, 정규분포를 따릅니다. ϵij∼iidN(0,σ2)
(3) 모형식
고정효과모형의 모형식은 아래와 같이 나타낼 수 있습니다.
i=1,2,...,p,j=1,2,...,ni 일 때,
Yij=μi+ϵij
=μ+(μi−μ)+ϵij
=μ+αi+ϵij
이 때, 각 항은 아래와 같습니다.
μ는 전체 모평균을 말합니다.
αi는 i번째 처리효과로 μi−μ 로 나타내고, 모든 처리효과의 합은 0 입니다. ∑αi=0
ϵij는 오차항을 말하며 관측값과 모델사이의 잔차를 말합니다.
3. 고정효과모형에서의 통계적 추론
(1) 처리효과가 있는지에 대한 가설검정
고정효과모형에서의 "처리 효과"는 각 처리 수준이 종속 변수에 미치는 영향을 나타냅니다. 이는 각 처리 수준 간의 평균적인 차이를 의미하며, 이러한 차이가 우연에 의한 것인지 통계적으로 유의한 차이인지를 파악하는 데 사용됩니다. 따라서 고정효과모형을 사용하여 처리 효과가 있는지 여부를 확인할 수 있습니다.
▶ 처리효과가 없다면 각 수준의 평균이 전체평균과 같다는 것에 대한 가설검정을 통해서 확인할 수 있습니다.
⟹H0:α1=α2=...=αp=0
(H0:μ1=μ2=...=μp)
▶ 처리효과가 있다면, 어떤 수준끼리 차이가 있는지 확인할 수 있습니다.
⟹H0:μi=μj,i≠j
▶ 처리효과가 있다면, 처리 효과를 추정할 수 있습니다.
(2) 가설설정
가설설정시에 평균이 같다는 것은 처리효과가 0 이라는 것과 같은 의미라 할 수 있습니다.
H0:μ1=μ2=...=μp
⟹H0:α1=α2=...=αp=0
(3) 검정통계량
Yij:i번째 그룹의 j번째 관측값, i=1,2,...,p,j=1,2,...,n
¯Yi:i번째 그룹의 표본평균, ˉY: 전체 관측값의 평균
F0=∑pi=1ni(¯Yi−ˉY)2/(p−1)∑pi=1∑nij=1(¯Yij−ˉY)2/∑pi=1(ni−1)∼Fp−1,N−p
N=∑pi=1ni (총관측치)
(4) 검정통계량의 분포와 유의수준을 비교 검토합니다.
유의수준을 α라고 하면 기각역 {①(Fα,p−1,N−p,∞)②(0,F1−α,p−1,N−p)③(0,F1−α/2,p−1,N−p),(F1−α/2,p−1,N−p,∞)
(5) 결론
기각역(비정상영역) : 귀무가설 기각 (대립가설 채택)
채택역(정상영역) : 귀무가설 유지 (대립가설 기각)
4. 변동 분해 (Decomposition of Variance)
변동분해(Decomposition of Variance)는 분산분석(ANOVA)에서 사용되는 개념으로, 종속변수의 총 변동을 처리 간 변동과 처리 내 변동으로 나누는 과정을 의미합니다. 이 과정은 데이터의 변동을 처리 효과와 잔차(오차)로 설명하는 데 도움이 됩니다.
앞서 모형식은 아래와 같이 나눠 볼 수 있습니다.
Yij=μi+ϵij=μ+(μi−μ)+ϵijˉY⟹μ,¯Yi⟹μiϵij=Yij−μi⟹eij=Yij−¯Yi:잔차(residuals)
잔차는 관측값에서 해당수준의 표본평균을 뺀 값이 된다.
모형식을 추정량으로 표시하면,
Yij−ˉY=¯Yi−ˉY+Yij−¯Yi
종속변수의 총 변동을 처리 간 변동(처리별 평균 - 전체평균)과 처리 내 변동(관측값 - 처리별 평균)으로 나누어 볼 수 있습니다.
◈ 예제 : 사료에 따른 체중증가 실험
방법 | 쇠고기 저단백 |
쇠고기 고단백 |
시리얼 저단백 |
시리얼 고단백 |
반복 | 90 76 90 64 86 51 72 90 95 78 |
73 102 118 104 81 107 100 87 117 111 |
107 95 97 80 98 74 74 67 89 58 |
98 74 56 111 95 88 82 77 86 92 |
합 | 792 | 1000 | 839 | 859 |
요인 : 사료, 수준(처리)의 수 : 4 , 반응변수 : 체중증가
반복수 : 각 10 회
▶ 처리효과에 대한 가설검정
① 가설설정
H0:μ1=μ2=...=μp
⟹H0:α1=α2=...=αp=0
② 주요통계량
- 전체 평균 ˉY=3,49040=87.25
- 각 수준별 평균 ¯Yi=79.2,100,83.9,85.9
- ∑pi=1ni(¯Yi−ˉY)2=∑4i=110(ˉY−87.25)2=2,404.1
- ∑pi=1∑nij=1(¯Yij−¯Yi)2=∑4i=1∑1j=10(¯Yij−¯Yi)2=8,049.4
③ 검정통계량
F0=∑pi=1ni(¯Yi−ˉY)2/(p−1)∑pi=1∑nij=1(¯Yij−ˉY)2/∑pi=1(ni−1)
F0=2,404.1/3)8,049.4/36=3.584
④ F-검정
F0=3.584>2.866=F0.05,3,36
⇒ 5% 유의수준에서 귀무가설은 기각합니다. 따라서, 사료에 따라 평균성장량에 유의한 차이가 있음을 알 수 있습니다.
'통계학 이야기' 카테고리의 다른 글
88. R을 이용한 분산분석(ANOVA) (1) | 2024.07.03 |
---|---|
87. 분산분석 - 변동분해 (1) | 2024.07.02 |
84. 분산분석 통계모형(Model) (0) | 2024.06.27 |
83. 분산분석의 검정통계량 (0) | 2024.06.26 |
82. 분산분석(ANOVA)이란 (0) | 2024.06.25 |