생각 작업실 The atelier of thinking

75. 두 그룹간 평균 비교 - 독립표본 II 본문

통계학 이야기

75. 두 그룹간 평균 비교 - 독립표본 II

knowledge-seeker 2024. 6. 17. 14:03

Chapter 75. 두 그룹간 평균 비교 - 독립표본 II

 

 정규성 검정과 등분산성 검정은 모수적 통계 분석의 전제 조건을 확인하는 데 중요한 도구입니다. 이러한 검정을 통해 추론 결과의 타당성을 평가하고, 적절한 통계 분석 방법을 선택할 수 있습니다.

정규성 가정 확인은 shapiro-wilk 검정 등으로 확인할 수 있습니다.
등분산성 검정이란 두 그룹 간의 분산이 동일한지 여부를 확인하는 것입니다. 많은 통계적 분석 방법은 등분산 가정을 전제로 합니다. 등분산성이 충족되지 않을 경우에는 분석 결과가 왜곡될 수 있습니다. 따라서 등분산성 검정을 통해 두 그룹 간의 분산이 유사한지 여부를 확인하는 것이 필요합니다.

이번 회차에서는 분산이 다른 경우에 대해 알아보겠습니다.

 


 

 

1. 모집단 가정

 

두 모집단 모두 정규분포 형태를 가정합니다.

정규모집단 가정으로 독립표본이나 분산이 다른 경우를 가정합니다.

 

 

(1) 확률표본

 

X1,X2,...,XmiidN(μ1,σ21)

Y1,Y2,...,YniidN(μ2,σ22)

X1,X2,...,XmY1,Y2,...,Yn 은 서로 독립이고, 분산은 다를 경우를 가정.

 

(2) 점 추정

 

두 모집단의 비교에서 관심모수는 두 모평균의 차이라고 할 수 있습니다.
관심모수에 대한 점 추정량은 각각의 표본평균의 차이를 사용할 수 있습니다.

 

μ1μ2ˉXˉY

 

(3) 표본평균의 통계적 성질

 

E(ˉX)=μ1,E(ˉY)=μ2

Var(ˉX)=σ21m,Var(ˉY)=σ22n

 

정규 확률변수의 선형결합은 정규분포를 따르게 됩니다.

 

ˉXN(μ1,σ21m),ˉYN(μ2,σ22n)

ˉXˉY 는 독립일 때, ˉXˉY는 정규분포를 따릅니다.

 

ˉXˉYN(μ1μ2,σ21m+σ22n)

 

따라서, 두 표본평균의 차이 역시 정규분포를 따르게 됩니다.

 

(4) 표준화

 

두 표본평균의 차이를 표준화하면 아래와 같습니다.

 

Z=ˉXˉY(μ1μ2)σ21/m+σ22/nN(0,1)

 

통상 모분산, 모표준편차는 알 수 없는 경우가 많습니다. 따라서, 표본분산과 표본표준편차를 대신 사용하게 됩니다.

각각의 표본분산은 아래와 같이 나타납니다.

 

σ21S2X=1m1mi=1(XiˉX)2

σ22S2Y=1n1ni=1(YiˉY)2

 

(5) 중심축량

 

모표준편차대신 합동표본분산을 적용한 중심축량은 아래와 같습니다.

 

T=ˉXˉY(μ1μ2)S2X/m+S2Y/n??

 

위 중심축량은 아직 정확한 분포는 모릅니다. 하지만 T 분포에 근사하는 것으로 알려져 있어 T분포를 이용합니다.

 

다만 자유도를 정할 때는 아래의 방법을 사용합니다.

Welch-Satterthwaite 방정식은 Welch t-검정에서 사용되는 자유도(degree of freedom)를 계산하는 방법 중 하나입니다. Welch t-검정은 두 그룹 간의 평균 차이를 비교할 때, 그룹 간 분산이 다르거나 표본 크기가 다른 경우에 사용됩니다. 이 방정식은 두 그룹의 표본 크기와 분산을 고려하여 적절한 자유도를 계산합니다.

Welch-Satterthwaite 방정식은 다음과 같이 표현됩니다.

 

((/)+(/))2(/)21+(/)21

 

이를 식으로 표현하면 아래와 같습니다.

 

ν=(S2X/m+S2Y)2(S2X/m)2/(m1)+(S2Y/n)2/(n1)

 

위 식은 R 등 통계프로그램에서 구할 수 있습니다.

 

간편한 자유도는 즉 정수값은 아래와 같이 구하여 사용할 수 있습니다.

ν=min(m1,n1)

 

따라서, 중심축량은 위에서 구한 자유도를 따르는 T분포를 나타냅니다.

 

T=ˉXˉY(μ1μ2)S2X/m+S2Y/ntν

 


 

2. 구간 추정

 

두 모평균의 차이에 대한 구간 추정은 위 중심축량을 기준으로 신뢰구간을 정하게 됩니다.

유도 과정을 살펴보면 아래와 같습니다.

 

(μ1μ2)에 대한 100(1α) 신뢰구간을 나타내면,

 

1α=P(tα/2,ν<T<tα/2,ν)

=P(tα/2,ν<ˉXˉY(μ1μ2)SX2/m+S2Y/n<tα/2,ν)

 

위 식에서 μ1μ2를 중심으로 정리하면, 신뢰구간은 아래와 같이 정리할 수 있습니다.

 

(ˉXˉYtα/2,νS2X/m+S2Y/n,ˉXˉY+tα/2,νS2X/m+S2Y/n)

 


 

3. 가설 검정

 

가설검정의 절차를 살펴보면, 가설을 설정하고 검정통계량을 구하고 구한 검정통계량의 분포와 유의수준을 비교 검토후 기각 또는 채택의 결론을 내리게 됩니다.

(1) 가설 설정
     귀무가설(H0) : 현상태에 대한 잠정적 가정
     대립가설(H1): 우리가 알고 싶은 것

 

 H0:μ1=μ2vsH1:{μ1>μ2μ1<μ2μ1μ2

 

일반식 H0μ1μ2=δ 로 표현할 수 있습니다.

 

(2) 검정통계량 : 귀무가설하에서 표본의 비정상성을 결정하기 위해 사용되는 통계량

 

T0=ˉXˉYδS2X/m+S2Y/ntν


(3) 검정통계량의 분포와 유의수준을 비교 검토합니다.

 

 유의수준을 α라고 하면 기각역 {(tα,ν,)(,tα,ν)(,tα/2,ν),(tα/2,ν,)

 

(4) 결론

기각역(비정상영역) : 귀무가설 기각 (대립가설 채택)
채택역(정상영역) : 귀무가설 유지 (대립가설 기각)