일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 반복있음
- 산점도
- 반복없음
- 회귀분석
- 글쓰기
- 변동분해
- css
- 티스토리챌린지
- 오블완
- 추정
- JavaScript
- 고정효과모형
- 인공지능
- 모평균에 대한 통계적추론
- r
- 정규분포
- 경제학
- 통계학
- 데이터 과학
- 변량효과모형
- 이원배치 분산분석
- 이항분포
- 분산분석
- 에세이
- version 1
- 확률
- 두 평균의 비교
- 혼합효과모형
- 가설검정
- html
- Today
- Total
생각 작업실 The atelier of thinking
85. 일원배치 분산분석(One-Way ANOVA) 본문
Chapter 85. 일원배치 분산분석(One-Way ANOVA)
분산분석(ANOVA, Analysis of Variance)은 세 개 이상의 그룹 간의 평균차이를 비교 하는 통계적 기법입니다.
분산분석은 반응변수(종속변수)의 수에 따라 단일변량 분산분석과 다변량 분산분석으로 분류할 수 있습니다.
다시 단일변량 분산분석은 설명변수(독립변수)의 수에 따라 일원배치 분산분석, 이원배치 분산분석 그리고 다원배치 분산분석으로 분류할 수 있습니다.
이번 회차에서는 반응변수(종속변수)가 하나이고 설명변수(독립변수)가 하나인 일원배치 분산분석에 대해 알아보겠습니다.
1. 일원배치 분산분석 (One-way ANOVA)
일원배치 분산분석(One-way ANOVA)은 한 개의 설명(독립)변수(요인)가 하나의 반응(종속)변수에 미치는 영향을 분석하는 통계 기법입니다. 일원배치 분산분석에서는 독립변수가 세 개 이상의 수준(그룹)을 가지며, 각 수준에서의 종속변수의 평균을 비교하여 그룹 간의 차이가 통계적으로 유의한지를 검정합니다.
완전확률화 설계(Completely randomized design)란 실험 단위의 배치 또는 실험순서에 있어 확률화의 원리에 충실해야 한다는 것입니다.
◈ 예제 : 사료에 따른 체중증가 실험
한 실험자가 4종류의 사료에 따라 체중증가에 미치는 영향을 알고 싶어합니다.
이 실험에서 독립변수(요인)은 사료입니다. 그룹 혹은 수준(처리)의 수는 4 종류이고, 반응변수(종속변수)는 체증증가라고 할 수 있습니다.
실험 대상으로 쥐를 선정하고 할당하는 과정은 완전확률화 설계에 따라 랜덤(random)하게 이루어져야 합니다.
이 때 비교대상은 4종류 사료별 체증증가의 평균이 됩니다.
모든 수준에 대해 반복수가 같을(balanced) 필요는 없으나 반복수가 같으면 통계적분석에 있어 편리한 점이 많습니다.
자료의 형태는 아래와 같습니다.
관측값 | 그룹1 | 그룹2 | ... | 그룹p |
1 | $Y_{11}$ | $Y_{21}$ | ... | $Y_{p1}$ |
2 | $Y_{12}$ | $Y_{22}$ | ... | $Y_{p1}$ |
... | ... | ... | ... | ... |
n | $Y_{1n}$ | $Y_{2n}$ | ... | $Y_{pn}$ |
표본평균 | $\bar{Y_1}$ | $\bar{Y_2}$ | ... | $\bar{Y_p}$ |
2. 고정효과모형(Fixed Effect Model)
고정효과모형은 각 처리 수준에 대한 평균이 특정한 값으로 고정된다고 가정합니다. 즉, 각 처리 수준의 평균에 대한 추론을 하기 위해 사용됩니다. 이 모형은 처리 조건의 효과를 직접적으로 비교하고자 할 때 유용합니다.
고정효과모형은 요인은 하나이고 수준은 실험자가 결정하는 모형입니다.
(1) 요인의 수준을 실험자가 결정한다.
처리효과에 대한 결론은 고려된 요인의 수준에서만 적용됩니다.
(2) 모형에 대한 가정
모형에서의 기본적인 가정은 독립변수들은 서로 독립이라는 것입니다.
각 처리 수준에서의 오차항은 서로 독립이어야 합니다. 이는 한 처리 수준의 오차항이 다른 처리 수준의 오차항과 상관관계가 없음을 의미합니다.
오차항은 정규분포를 따라야 합니다. 즉, 평균이 0이고 일정한 분산을 가지는 정규분포를 따라야 합니다.
$Y_{ij} : i$ 번째 처리(수준)을 받은 $j$번째 개체의 반응변수 값
$Y_{ij} \sim N(\mu_i , \sigma^2) $, 이 때 $Y_{ij} $들은 독립입니다.
오차(Error)는 $Y_{ij}-\mu_i = \epsilon_{ij}$ 이고, 정규분포를 따릅니다. $\epsilon_{ij} \sim iid N(0,\sigma^2)$
(3) 모형식
고정효과모형의 모형식은 아래와 같이 나타낼 수 있습니다.
$i = 1,2,...,p, \quad j = 1,2,...,n_i$ 일 때,
$$Y_{ij} = \mu_i + \epsilon_{ij}$$
$$ = \mu + (\mu_i-\mu)+\epsilon_{ij}$$
$$=\mu+\alpha_i+\epsilon_{ij}$$
이 때, 각 항은 아래와 같습니다.
$\mu$는 전체 모평균을 말합니다.
$\alpha_i$는 $i$번째 처리효과로 $\mu_i-\mu$ 로 나타내고, 모든 처리효과의 합은 0 입니다. $\sum \alpha_i = 0$
$\epsilon_{ij}$는 오차항을 말하며 관측값과 모델사이의 잔차를 말합니다.
3. 고정효과모형에서의 통계적 추론
(1) 처리효과가 있는지에 대한 가설검정
고정효과모형에서의 "처리 효과"는 각 처리 수준이 종속 변수에 미치는 영향을 나타냅니다. 이는 각 처리 수준 간의 평균적인 차이를 의미하며, 이러한 차이가 우연에 의한 것인지 통계적으로 유의한 차이인지를 파악하는 데 사용됩니다. 따라서 고정효과모형을 사용하여 처리 효과가 있는지 여부를 확인할 수 있습니다.
▶ 처리효과가 없다면 각 수준의 평균이 전체평균과 같다는 것에 대한 가설검정을 통해서 확인할 수 있습니다.
$$\implies H_0 : \alpha_1 = \alpha_2 = ... = \alpha_p = 0 $$
$$(H_0: \mu_1=\mu_2=...=\mu_p ) $$
▶ 처리효과가 있다면, 어떤 수준끼리 차이가 있는지 확인할 수 있습니다.
$$ \implies H_0: \mu_i = \mu_j , i \not= j $$
▶ 처리효과가 있다면, 처리 효과를 추정할 수 있습니다.
(2) 가설설정
가설설정시에 평균이 같다는 것은 처리효과가 0 이라는 것과 같은 의미라 할 수 있습니다.
$$H_0: \mu_1=\mu_2=...=\mu_p$$
$$\implies H_0 : \alpha_1 = \alpha_2 = ... = \alpha_p = 0 $$
(3) 검정통계량
$Y_{ij} : i$번째 그룹의 $j$번째 관측값, $i = 1,2,...,p, \quad j = 1,2,...,n$
$\bar{Y_i} : i$번째 그룹의 표본평균, $\bar{Y}:$ 전체 관측값의 평균
$$F_0=\frac{\sum_{i=1}^p n_i(\bar{Y_i}-\bar{Y})^2/(p-1)}{\sum_{i=1}^p \sum_{j=1}^{n_i}(\bar{Y_{ij}}-\bar{Y})^2/ \sum_{i=1}^p(n_i-1)} \sim F_{p-1,N-p}$$
$N = \sum_{i=1}^p n_i $ (총관측치)
(4) 검정통계량의 분포와 유의수준을 비교 검토합니다.
유의수준을 $\alpha$라고 하면 기각역 $ \begin{cases} ① (F_{\alpha,p-1,N-p},\infty ) \\ ② (0,F_{1-\alpha,p-1,N-p}) \\ ③(0,F_{1-\alpha/2,p-1,N-p}),(F_{1-\alpha/2,p-1,N-p},\infty) \end{cases} $
(5) 결론
기각역(비정상영역) : 귀무가설 기각 (대립가설 채택)
채택역(정상영역) : 귀무가설 유지 (대립가설 기각)
4. 변동 분해 (Decomposition of Variance)
변동분해(Decomposition of Variance)는 분산분석(ANOVA)에서 사용되는 개념으로, 종속변수의 총 변동을 처리 간 변동과 처리 내 변동으로 나누는 과정을 의미합니다. 이 과정은 데이터의 변동을 처리 효과와 잔차(오차)로 설명하는 데 도움이 됩니다.
앞서 모형식은 아래와 같이 나눠 볼 수 있습니다.
$$Y_{ij}=\mu_i+\epsilon_{ij}=\mu+(\mu_i-\mu)+\epsilon_{ij}$$$$\bar{Y} \implies \mu , \quad \bar{Y_i} \implies \mu_i $$$$\epsilon_{ij}=Y_{ij}-\mu_i \implies e_{ij} = Y_{ij}-\bar{Y_i} : 잔차(residuals)$$
잔차는 관측값에서 해당수준의 표본평균을 뺀 값이 된다.
모형식을 추정량으로 표시하면,
$$Y_{ij}-\bar{Y} = \bar{Y_i}-\bar{Y}+Y_{ij}-\bar{Y_i}$$
종속변수의 총 변동을 처리 간 변동(처리별 평균 - 전체평균)과 처리 내 변동(관측값 - 처리별 평균)으로 나누어 볼 수 있습니다.
◈ 예제 : 사료에 따른 체중증가 실험
방법 | 쇠고기 저단백 |
쇠고기 고단백 |
시리얼 저단백 |
시리얼 고단백 |
반복 | 90 76 90 64 86 51 72 90 95 78 |
73 102 118 104 81 107 100 87 117 111 |
107 95 97 80 98 74 74 67 89 58 |
98 74 56 111 95 88 82 77 86 92 |
합 | 792 | 1000 | 839 | 859 |
요인 : 사료, 수준(처리)의 수 : 4 , 반응변수 : 체중증가
반복수 : 각 10 회
▶ 처리효과에 대한 가설검정
① 가설설정
$$H_0: \mu_1=\mu_2=...=\mu_p$$
$$\implies H_0 : \alpha_1 = \alpha_2 = ... = \alpha_p = 0 $$
② 주요통계량
- 전체 평균 $\bar{Y} = \frac{3,490}{40} = 87.25$
- 각 수준별 평균 $\bar{Y_i} = 79.2 , 100, 83.9, 85.9 $
- $\sum_{i=1}^p n_i(\bar{Y_i}-\bar{Y})^2=\sum_{i=1}^4 10(\bar{Y}-87.25)^2 = 2,404.1$
- $\sum_{i=1}^p \sum_{j=1}^{n_i}(\bar{Y_{ij}} -\bar{Y_i})^2= \sum_{i=1}^4\sum_{j=1}^10(\bar{Y_{ij}}-\bar{Y_i})^2 = 8,049.4$
③ 검정통계량
$$F_0=\frac{\sum_{i=1}^p n_i(\bar{Y_i}-\bar{Y})^2/(p-1)}{\sum_{i=1}^p \sum_{j=1}^{n_i}(\bar{Y_{ij}}-\bar{Y})^2/ \sum_{i=1}^p(n_i-1)}$$
$$F_0=\frac{2,404.1/3)}{8,049.4/ 36} = 3.584$$
④ F-검정
$$ F_0 = 3.584 > 2.866 = F_{0.05,3,36}$$
⇒ 5% 유의수준에서 귀무가설은 기각합니다. 따라서, 사료에 따라 평균성장량에 유의한 차이가 있음을 알 수 있습니다.
'통계학 이야기' 카테고리의 다른 글
88. R을 이용한 분산분석(ANOVA) (1) | 2024.07.03 |
---|---|
87. 분산분석 - 변동분해 (1) | 2024.07.02 |
84. 분산분석 통계모형(Model) (0) | 2024.06.27 |
83. 분산분석의 검정통계량 (0) | 2024.06.26 |
82. 분산분석(ANOVA)이란 (0) | 2024.06.25 |