일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 정규분포
- 통계학
- 티스토리챌린지
- 추정
- 오블완
- 인공지능
- 혼합효과모형
- 가설검정
- 고정효과모형
- 에세이
- html
- 산점도
- css
- 변량효과모형
- version 1
- 해운업
- 이항분포
- 글쓰기
- 분산분석
- 데이터 과학
- 반복있음
- 확률
- r
- version 2
- 변동분해
- 회귀분석
- 경제학
- 반복없음
- JavaScript
- 이원배치 분산분석
- Today
- Total
생각 작업실 The atelier of thinking
86. 일원배치 분산분석 (One Way ANOVA) II 본문
Chapter 86. 일원배치 분산분석(One Way ANOVA) II
분산분석(ANOVA, Analysis of Variance)은 세 개 이상의 그룹 간의 평균차이를 비교 하는 통계적 기법입니다.
분산분석은 반응변수(종속변수)의 수에 따라 단일변량 분산분석과 다변량 분산분석으로 분류할 수 있습니다.
다시 단일변량 분산분석은 설명변수(독립변수)의 수에 따라 일원배치 분산분석, 이원배치 분산분석 그리고 다원배치 분산분석으로 분류할 수 있습니다.
1. 변량효과모형(Random Effect Model)
변량효과모형은 각 처리 수준의 평균이 모집단에서 무작위로 추출된 것으로 간주합니다. 이 모형은 처리 수준이 랜덤으로 선택되는 경우에 사용됩니다. 변량효과모형은 처리 수준에 대한 일반화된 추론을 하기 위해 사용됩니다.
변량효과모형은 처리 효과가 랜덤으로 추출된 표본이며, 이러한 효과들이 모집단에서 랜덤하게 선택되었다고 가정하는 통계 모형입니다. 즉, 이 모형은 처리 효과를 무작위 효과로 간주하며, 각 처리 수준의 효과가 모집단에서 무작위로 추출되었다고 가정합니다.
고정효과모형에서는 수준을 실험자가 결정하는 모형이지만, 변동효과모형에서는 무작위로 추출하여 선정합니다.
(1) 모형에 대한 가정
모형에서의 기본적인 가정은 독립변수들은 서로 독립이라는 것입니다.
또한, 모집단은 비교 대상인 수준들의 집합이라 할 수 있습니다.
선택될 수준들은 무작위로 추출 되기 때문에 각 수준의 평균은 매번 추출할 때마다 달라질 수 있습니다. 따라서 수준의 평균을 확률변수로 처리합니다.
$\mu_i : i$번째로 선택될 수준의 평균 $\implies$ 확률변수로 처리
$$ \mu_i \sim iid N(\mu, \sigma_\mu^2)$$
$\mu :$ 수준 평균들의 전체평균, $\sigma_\mu^2 :$ 수준 평균들의 분산
(2) 관측개체에 대한 모형식
변량효과모형의 모형식은 아래와 같이 나타낼 수 있습니다.
$Y_{ij} : i$번째 추출 수준에서의 $j$번째 추출단위의 반응변수 값
$$Y_{ij}=\mu_i + \epsilon_{ij}$$
$$ i = 1,2,..., p, \quad \quad j = 1,2,..., n_i $$
$$\mu_i \sim iid N(\mu,\sigma_\mu^2) , \quad \quad \epsilon_{ij} \sim iid N(0,\sigma^2)$$
이 때 $\mu_i$와 $\epsilon_{ij}$는 서로 독립입니다.
(3) 모형의 특징
수준의 평균은 확률변수이기 때문에 아래와 같은 특징이 있습니다.
$$E(Y_{ij}) = E(\mu_i)+E(\epsilon_{ij})=\mu$$$$Var(Y_{ij})=Var(\mu_i)+Var(\epsilon_{ij})=\sigma_\mu^2+\sigma^2$$
또하나의 관심사항인 같은 수준안에서의 관측값들은 아래와 같은 공분산을 가지게 됩니다.
$$Cov(Y_{ij},Y_{ik})=Cov(\mu_i+\epsilon_{ij}, \mu_i + \epsilon_{ik})$$$$ = Var(\mu_i)=\sigma_,u^2 > 0$$
이 때, $\sigma_\mu^2$ 와 $\sigma^2$ 를 Variance Components 라고 합니다. 여기서 착안하여 분산의 형태에 관심이 있다는 의미로 이 모형을 Variance Compoents Model 또는 Random Effect Model이라고 하게 되었습니다.
(4) 동일 수준내에서의 관측값들 간의 상관관계
그룹 내 관측값들간에는 아래와 같은 상관계수는 아래와 같이 구할 수 있습니다.
$$\rho = Cor(Y_{ij},Y_{ik})=\frac{Cov(Y_{ij},Y_{ik})}{\sqrt{Var(Y_{ij})}\sqrt{Var(Y_{ik})}} = \frac{\sigma_\mu^2}{\sigma_\mu^2+\sigma^2}$$
$\rho : $ intraclass correlation coefficient (ICC)
동일 수준내 상관계수(intraclass correlation coefficient : ICC)의 값이 크다는 것은 그룹 간의 변동이 크고, 그룹 내의 변동이 상대적으로 작다는 것을 의미합니다. 달리 표현하면, 전체 분산 중 수준 평균의 분산이 차지하는 비율이 높고, 동일 수준내의 두 관측값의 상관관계가 높다고 말할 수 있습니다.
이는 그룹 간 차이가 통계적으로 유의미하다는 것을 나타낼 수 있습니다. 따라서 ICC가 크면 그룹 간 차이가 크고, 그룹 간 평균의 차이가 통계적으로 유의미할 가능성이 높다고 해석할 수 있습니다.
2. 변량효과모형에서의 통계적 추론
(1) 변량효과모형에서의 관심문제
고정효과모형에서는 평균들의 차이 있는지에 대하여 검정을 하지만, 변량효과모형에서의 평균은 무작위 추출하는 확률변수이기 때문에 매번 바뀔 수 있기 때문에 평균들의 차이를 직접 구하는 것은 의미가 없습니다.
분산 $\sigma_\mu^2$ 이 0 이라면 평균은 차이가 없다는 의미이고, $\sigma_\mu^2 > 0$ 이라면 평균은 차이가 있다는 것입니다. 따라서, 변량효과모형에서의 관심은 분산 $\sigma_\mu^2$ 이라고 할 수 있습니다.
(2) 가설 설정
귀무가설은 분산은 0 으로, 대립가설은 분산은 0 보다 크다로 설정할 수 있습니다.
$$ H_0 : \sigma_\mu^2 = 0 \quad vs \quad H_1 : \sigma_\mu^2 > 0$$
(3) 검정 통계량
$Y_{ij} : i$번째 그룹의 $j$번째 관측값, $i = 1,2,...,p, \quad j = 1,2,...,n$
$\bar{Y_i} : i$번째 그룹의 표본평균, $\bar{Y}:$ 전체 관측값의 평균
$$F_0=\frac{\sum_{i=1}^p n_i(\bar{Y_i}-\bar{Y})^2/(p-1)}{\sum_{i=1}^p \sum_{j=1}^{n_i}(\bar{Y_{ij}}-\bar{Y})^2/ \sum_{i=1}^p(n_i-1)} \sim F_{p-1,N-p}$$
$N = \sum_{i=1}^p n_i $ (총관측치)
고정효과모형과 같은 검정통계량을 사용할 수 있습니다.
(4) 검정 통계량의 분포와 유의수준을 비교검토합니다.
유의수준을 $\alpha$라고 하면 기각역 $ \begin{cases} ① (F_{\alpha,p-1,N-p},\infty ) \\ ② (0,F_{1-\alpha,p-1,N-p}) \\ ③(0,F_{1-\alpha/2,p-1,N-p}),(F_{1-\alpha/2,p-1,N-p},\infty) \end{cases} $
(5) 결론
기각역(비정상영역) : 귀무가설 기각 (대립가설 채택)
채택역(정상영역) : 귀무가설 유지 (대립가설 기각)
(6) 모수 추정
특정 수준에서의 평균에는 관심이 없습니다. 대신 분산과 상관계수 추정에 관심을 가지게 됩니다.
$$\mu,\sigma_\mu^2, \sigma^2,\sigma_\mu^2/(\sigma_\mu^2+\sigma^2)의 추정에 관심$$