일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- css
- 데이터 과학
- 추정
- r
- 확률
- 이항분포
- 반복없음
- 경제학
- 고정효과모형
- 변동분해
- 티스토리챌린지
- 정규분포
- 이원배치 분산분석
- 모평균에 대한 통계적추론
- version 1
- 두 평균의 비교
- 회귀분석
- 분산분석
- 가설검정
- html
- 혼합효과모형
- 통계학
- 변량효과모형
- 에세이
- JavaScript
- 반복있음
- 글쓰기
- 오블완
- 인공지능
- 산점도
- Today
- Total
생각 작업실 The atelier of thinking
75. 두 그룹간 평균 비교 - 독립표본 II 본문
Chapter 75. 두 그룹간 평균 비교 - 독립표본 II
정규성 검정과 등분산성 검정은 모수적 통계 분석의 전제 조건을 확인하는 데 중요한 도구입니다. 이러한 검정을 통해 추론 결과의 타당성을 평가하고, 적절한 통계 분석 방법을 선택할 수 있습니다.
정규성 가정 확인은 shapiro-wilk 검정 등으로 확인할 수 있습니다.
등분산성 검정이란 두 그룹 간의 분산이 동일한지 여부를 확인하는 것입니다. 많은 통계적 분석 방법은 등분산 가정을 전제로 합니다. 등분산성이 충족되지 않을 경우에는 분석 결과가 왜곡될 수 있습니다. 따라서 등분산성 검정을 통해 두 그룹 간의 분산이 유사한지 여부를 확인하는 것이 필요합니다.
이번 회차에서는 분산이 다른 경우에 대해 알아보겠습니다.
1. 모집단 가정
두 모집단 모두 정규분포 형태를 가정합니다.
정규모집단 가정으로 독립표본이나 분산이 다른 경우를 가정합니다.
(1) 확률표본
$$ X_1,X_2,...,X_m \sim iid N ( \mu_1 , \sigma_1^2 )$$
$$ Y_1,Y_2,...,Y_n \sim iid N ( \mu_2 , \sigma_2^2 )$$
$ \implies X_1,X_2,...,X_m$ 와 $Y_1,Y_2,...,Y_n$ 은 서로 독립이고, 분산은 다를 경우를 가정.
(2) 점 추정
두 모집단의 비교에서 관심모수는 두 모평균의 차이라고 할 수 있습니다.
관심모수에 대한 점 추정량은 각각의 표본평균의 차이를 사용할 수 있습니다.
$$ \mu_1 - \mu_2 \impliedby \bar{X} - \bar{Y} $$
(3) 표본평균의 통계적 성질
$$ E(\bar{X}) = \mu_1 ,\quad E(\bar{Y}) = \mu_2 $$
$$ Var(\bar{X}) = \frac{\sigma_1^2}{m} ,\quad Var(\bar{Y}) = \frac{\sigma_2^2}{n} $$
정규 확률변수의 선형결합은 정규분포를 따르게 됩니다.
$$ \bar{X} \sim N( \mu_1, \frac{\sigma_1^2}{m} ), \quad \bar{Y} \sim N( \mu_2, \frac{\sigma_2^2}{n}) $$
$\bar{X}$ 와 $\bar{Y}$ 는 독립일 때, $ \bar{X} - \bar{Y} $는 정규분포를 따릅니다.
$$ \bar{X}-\bar{Y} \sim N \left( \mu_1-\mu_2, \frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n} \right) $$
따라서, 두 표본평균의 차이 역시 정규분포를 따르게 됩니다.
(4) 표준화
두 표본평균의 차이를 표준화하면 아래와 같습니다.
$$ Z = \frac{\bar{X}-\bar{Y}-(\mu_1-\mu_2)}{\sqrt{\sigma_1^2/m+\sigma_2^2/n}} \sim N (0,1) $$
통상 모분산, 모표준편차는 알 수 없는 경우가 많습니다. 따라서, 표본분산과 표본표준편차를 대신 사용하게 됩니다.
각각의 표본분산은 아래와 같이 나타납니다.
$$ \sigma_1^2 \impliedby S_X^2 = \frac{1}{m-1} \sum_{i=1}^m (X_i-\bar{X})^2 $$
$$ \sigma_2^2 \impliedby S_Y^2 = \frac{1}{n-1} \sum_{i=1}^n (Y_i-\bar{Y})^2 $$
(5) 중심축량
모표준편차대신 합동표본분산을 적용한 중심축량은 아래와 같습니다.
$$ T = \frac{\bar{X}-\bar{Y}-(\mu_1-\mu_2)}{\sqrt{S_X^2/m+S_Y^2/n}} \sim ??$$
위 중심축량은 아직 정확한 분포는 모릅니다. 하지만 T 분포에 근사하는 것으로 알려져 있어 T분포를 이용합니다.
다만 자유도를 정할 때는 아래의 방법을 사용합니다.
Welch-Satterthwaite 방정식은 Welch t-검정에서 사용되는 자유도(degree of freedom)를 계산하는 방법 중 하나입니다. Welch t-검정은 두 그룹 간의 평균 차이를 비교할 때, 그룹 간 분산이 다르거나 표본 크기가 다른 경우에 사용됩니다. 이 방정식은 두 그룹의 표본 크기와 분산을 고려하여 적절한 자유도를 계산합니다.
Welch-Satterthwaite 방정식은 다음과 같이 표현됩니다.
$$\frac{((첫번째그룹의 분산/첫번째그룹의 표본크기)+(두번째그룹의분산/두번째그룹의 표본크기))^2}{\frac{(첫번째그룹의 분산/첫번째그룹의 표본크기)^2}{첫번째그룹의 표본크기-1}+\frac{(두번째그룹의 분산/두번째그룹의 표본크기)^2}{두번째그룹의 표본크기-1}}$$
이를 식으로 표현하면 아래와 같습니다.
$$\nu = \frac{(S_X^2/m+S_Y^2)^2}{(S_X^2/m)^2/(m -1)+(S_Y^2/n)^2/(n-1)}$$
위 식은 R 등 통계프로그램에서 구할 수 있습니다.
간편한 자유도는 즉 정수값은 아래와 같이 구하여 사용할 수 있습니다.
$$\nu = min(m-1,n-1) $$
따라서, 중심축량은 위에서 구한 자유도를 따르는 T분포를 나타냅니다.
$$ T = \frac{\bar{X}-\bar{Y}-(\mu_1-\mu_2)}{\sqrt{S_X^2/m+S_Y^2/n}} \sim t_{\nu}$$
2. 구간 추정
두 모평균의 차이에 대한 구간 추정은 위 중심축량을 기준으로 신뢰구간을 정하게 됩니다.
유도 과정을 살펴보면 아래와 같습니다.
$ (\mu_1-\mu_2)$에 대한 $ 100(1-\alpha)%$ 신뢰구간을 나타내면,
$$ 1-\alpha = P(-t_{\alpha/2,\nu} < T <t_{\alpha/2,\nu}) $$
$$ = P \left(-t_{\alpha/2,\nu}< \frac{\bar{X}-\bar{Y}-(\mu_1-\mu_2)}{\sqrt{S-X^2/m+S_Y^2/n}} < t_{\alpha/2,\nu} \right) $$
위 식에서 $\mu_1-\mu_2$를 중심으로 정리하면, 신뢰구간은 아래와 같이 정리할 수 있습니다.
$$ \left(\bar{X}-\bar{Y}-t_{\alpha/2,\nu}\sqrt{S_X^2/m+S_Y^2/n}, \quad \bar{X}-\bar{Y}+t_{\alpha/2,\nu}\sqrt{S_X^2/m+S_Y^2/n} \right) $$
3. 가설 검정
가설검정의 절차를 살펴보면, 가설을 설정하고 검정통계량을 구하고 구한 검정통계량의 분포와 유의수준을 비교 검토후 기각 또는 채택의 결론을 내리게 됩니다.
(1) 가설 설정
귀무가설$(H_0)$ : 현상태에 대한 잠정적 가정
대립가설$(H_1)$: 우리가 알고 싶은 것
$$ H_0 : \mu_1 = \mu_2 \quad vs \quad H_1: \begin{cases} \mu_1 > \mu_2 \\ \mu_1 < \mu_2 \\ \mu_1 \not= \mu_2 \end{cases}$$
일반식 $H_0$ 는 $\mu_1-\mu_2=\delta$ 로 표현할 수 있습니다.
(2) 검정통계량 : 귀무가설하에서 표본의 비정상성을 결정하기 위해 사용되는 통계량
$$ T_0 = \frac{\bar{X}-\bar{Y} - \delta}{\sqrt{S_X^2/m+S_Y^2/n}} \sim t_{\nu} $$
(3) 검정통계량의 분포와 유의수준을 비교 검토합니다.
유의수준을 $\alpha$라고 하면 기각역 $ \begin{cases} ① (t_{\alpha,\nu},\infty ) \\ ② (-\infty, -t_{\alpha,\nu}) \\ ③(-\infty,-t_{\alpha/2,\nu}),(t_{\alpha/2,\nu},\infty) \end{cases} $
(4) 결론
기각역(비정상영역) : 귀무가설 기각 (대립가설 채택)
채택역(정상영역) : 귀무가설 유지 (대립가설 기각)
'통계학 이야기' 카테고리의 다른 글
77. R을 이용한 두 그룹의 평균 비교 (0) | 2024.06.19 |
---|---|
76. 두 그룹간 평균 비교 - 대응표본 (1) | 2024.06.18 |
74. 두 그룹간 평균 비교 - 독립표본 I (0) | 2024.06.16 |
73. 두 모집단의 비교 - 독립표본 & 대응표본 (0) | 2024.06.14 |
72. R 을 이용한 모비율에 대한 통계적 추론 (1) | 2024.06.13 |