생각 작업실 The atelier of thinking

76. 두 그룹간 평균 비교 - 대응표본 본문

통계학 이야기

76. 두 그룹간 평균 비교 - 대응표본

knowledge-seeker 2024. 6. 18. 12:21

Chapter 76. 두 그룹간 평균 비교 - 대응표본

 

독립표본과 대응표본으로 구분하는 이유는 통계적 실험의 설계와 분석 방법이 각각 다르기 때문입니다. 이 두 가지 유형의 실험은 각각 다른 상황에서 사용되며, 각각의 특성에 따라 적합한 분석 방법을 적용해야 합니다.

대응표본은 같은 개체 또는 짝을 이루는 개체로부터 얻은 두 개의 관측치를 사용하여 모집단 간의 차이를 검정하거나 비교하는 방법입니다.



두 개의 관측치는 개체 또는 짝을 이루는 개체로부터 얻어진 것이므로 관측치 간의 연관성이 있습니다. 대응표본은 시간의 차이, 동일한 개체의 전후 측정, 왼쪽과 오른쪽 등의 대응 관계를 가질 수 있습니다.
대응표본은 보통 같은 개체 또는 짝을 이루는 개체들에 대한 전후 차이, 처리 전후 차이 등을 검정하는 데 사용됩니다.

지난 회차에서는 독립표본, 이번회차는 대응표본일 때의 두 그룹의 평균을 비교해 보겠습니다.

 

 

 

 

 


1. 모집단 가정

 

(1) 자료의 형태

 

처리 1 처리 2  차이
$X_1$ $Y_1$ $D_1=X_1-Y_1$
$X_2$ $Y_2$ $D_2=X_2-Y_2$
: : :
$X_n$ $Y_n$ $D_n=X_n-Y_n$
$\bar{X}$ $\bar{Y}$ $\bar{D}=\bar{X}-\bar{Y}$

 

대응표본의 비교는 짝비교라고도 합니다. 그렇듯 두 표본이 짝을 이루기 때문에 두 표본의 갯수는 같게 나타나는 경우가 대부분입니다. 이 때 각각의 표본에 대한 차이를 Di 라고 한다면, 아래와 같습니다.

 

$ \mu_1$ : 처리 1의 평균,  $\mu_2$ : 처리 2의 평균

모수 : $\delta = \mu_1-\mu_2 \impliedby \bar{X}-\bar{Y} = \bar{D} $ 표본평균의 차

 

따라서, 대응표본의 두 그룹의 평균의 비교는 차이 Di 의 단일 표본에 대한 모평균의 통계적추론과 같다고 할 수 있습니다.

 

(2) 확률표본

두 표본의 차이 $D_i$가 정규분포를 이룬다고 가정합니다.

 

$$D_1,D_2,...,D_n \sim iid N( \delta, \sigma_D^2 )$$

 

 

(3) 점 추정량

대응표본의 두 그룹의 모평균 차이가 관심모수가 됩니다.

따라서 점 추정량은 두 표본의 표본평균 차이를 사용할 수 있습니다.

 

$$ \bar{X}-\bar{Y} = \bar{D} \sim N(\delta, \sigma_D^2/n)$$

 

(4) 통계적 성질

두 표본의 표본평균 차이의 기대값과 분산은 아래와 같습니다.

 

$$ E(\bar{D}) = \delta $$

$$ Var(\bar{D}) = \frac{\sigma_D^2}{n} $$

 

(5) 중심축량

$$ \bar{X}-\bar{Y} = \bar{D} \sim N(\delta, \sigma_D^2/n)$$

 

이를 표준화하면,

 

$$ \frac{\bar{D}-\delta}{\sigma_D/\sqrt{n}} \sim N(0,1) $$

 

모표준편차 대시 표본 표준편차를 사용하면,

 

$$ S_D^2 = \frac{1}{n-1} \sum (D_i-\bar{D})^2$$

 

아래의 중심축량은 T 분포를 따르게 됩니다.

 

$$ T = \frac{\bar{D}-\delta}{S_D/\sqrt{n}} \sim t_{n-1}$$


2. 구간 추정

 

구간 추정은 위 중심축량을 기준으로 신뢰구간을 정하게 됩니다.

유도 과정을 살펴보면 아래와 같습니다.

 

$\delta$에 대한 $ 100(1-\alpha)%$ 신뢰구간을 나타내면,

 

$$ 1-\alpha = P(-t_{\alpha/2,n-1} < T <t_{\alpha/2,n-1}) $$

$$ = P \left(-t_{\alpha/2,n-1}< \frac{\bar{D}-\delta}{S_D/\sqrt{n}} < t_{\alpha/2,n-1} \right) $$

 

위 식에서 신뢰구간은 아래와 같이 정리할 수 있습니다.

 

$$ \left(\bar{D}-t_{\alpha/2,n-1}S_D/\sqrt{n}, \quad \bar{D}+t_{\alpha/2,n-1}S_D/\sqrt{n} \right) $$

 


3. 가설검정

가설검정의 절차를 살펴보면, 가설을 설정하고 검정통계량을 구하고 구한 검정통계량의 분포와 유의수준을 비교 검토후 기각 또는 채택의 결론을 내리게 됩니다.

(1) 가설 설정
     

     귀무가설$(H_0)$ : 현상태에 대한 잠정적 가정
     대립가설$(H_1)$ : 우리가 알고 싶은 것

 

 $$ H_0 : \delta = \delta_0 \quad vs \quad H_1: \begin{cases} \delta > \delta_0 \\ \delta < \delta_0 \\ \delta \not= \delta_0 \end{cases}$$

 

 

(2) 검정통계량  : 귀무가설하에서 표본의 비정상성을 결정하기 위해 사용되는 통계량

 

$$ T_0 = \frac{\bar{D} - \delta_0}{S_D/\sqrt{n}} \sim t_{n-1} $$


(3) 검정통계량의 분포와 유의수준을 비교 검토합니다.

 

 유의수준을 $\alpha$라고 하면 기각역 $ \begin{cases} ① (t_{\alpha,n-1},\infty ) \\ ② (-\infty, -t_{\alpha,n-1}) \\ ③(-\infty,-t_{\alpha/2,n-1}),(t_{\alpha/2,n-1},\infty) \end{cases} $

 

(4) 결론


기각역(비정상영역) : 귀무가설 기각 (대립가설 채택)
채택역(정상영역) : 귀무가설 유지 (대립가설 기각)