생각 작업실 The atelier of thinking

78. 두 그룹간 분산 비교 - F 분포 본문

통계학 이야기

78. 두 그룹간 분산 비교 - F 분포

knowledge-seeker 2024. 6. 20. 11:26

Chapter 78. 두 그룹간 분산 비교 - F 분포

 

두 그룹에 대한 통계적 추론을 수행할 때 정규성 검정과 등분산성 검정이 필요합니다.

정규성 검정(Normality Test)은 데이터가 정규분포를 따르는지 여부를 확인하는 것입니다. 많은 통계적 추정 및 가설 검정 방법은 데이터가 정규분포를 따를 때 최적의 성능을 보입니다. 또한, 중심극한정리에 따르면, 표본 평균의 분포는 표본 크기가 충분히 크면 정규분포에 근접하게 됩니다. 따라서 정규성 검정을 통해 데이터가 정규분포를 따르는지 확인하는 것은 통계적 추론의 타당성을 평가하는 데 도움이 됩니다.

등분산성 검정(Homogeneity of Variance Test) 은 두 그룹 간의 분산이 동일한지 여부를 확인하는 것입니다. 많은 통계적 분석 방법은 등분산 가정을 전제로 합니다. 등분산성이 충족되지 않을 경우에는 분석 결과가 왜곡될 수 있습니다. 따라서 등분산성 검정을 통해 두 그룹 간의 분산이 유사한지 여부를 확인하는 것이 필요합니다.

정규성 검정과 등분산성 검정은 모수적 통계 분석의 전제 조건을 확인하는 데 중요한 도구입니다. 이러한 검정을 통해 추론 결과의 타당성을 평가하고, 적절한 통계 분석 방법을 선택할 수 있습니다.

이번 회차에서는 두 그룹의 분산을 비교하여 등분산성을 확인하는 통계적추론에 대하여 알아보겠습니다.


 

1. 모집단 가정

 

모집단이 정규성 가정의 적절한지 확인이 필요할 때 사용하는 방법이 Shapiro-Wilk Test, Jacque-Bera Test 등이 있습니다. 이는 R 등의 통계프로그램을 통해 확인해 볼 수 있습니다.

우선 정규 모집단을 가정하고 통계적 추론을 진행하겠습니다.

 

(1) 확률표본

 

X1,X2,...,XmiidN(μ1,σ21)

Y1,Y2,...,YniidN(μ2,σ22)

X1,X2,...,XmY1,Y2,...,Yn 은 서로 독립인 경우를 가정.

 

분산이 같을 때 vs. 분산이 다를 때

 

정규 모집단의 분산이 같으냐 다르냐에 따라 판단이 달라질 수 있습니다.

 

(2) 점추정

 

두 그룹에서의 분산이 같은지 다른지가 주요 관심사항이 됩니다.

 

σ21=σ22

 

두 분산이 같은지에 대한 표현은 아래와 같이 할 수 있습니다.

 

σ21σ22=0

σ21/σ22=1orσ22/σ21=1

 

두 분산의 차이가 0인지 혹은 두 분산의 비가 1인지 여부에 따라서 확인할 수 있습니다.

다만, 분산의 차이가 음수로 나오면 여러 계산상의 어려움이 발생할 수 있습니다. 따라서 두 분산의 비로 표현하는 경우가 많습니다.

 

점 추정량은 표본분산비로 사용합니다.

 

σ21/σ22S21/S22

 

(3) F 분포

 

F-분포는 두 개의 분산을 비교하는 데 사용되는 확률분포입니다. 예를 들어, 두 그룹의 분산이 같은지를 확인하거나 실험 그룹과 대조 그룹의 분산 차이를 평가하는 데 사용됩니다.

이것을 좀 더 쉽게 설명하자면, F-분포는 우리가 알고 있는 표준 편차를 비교하는 도구라고 할 수 있습니다. 두 그룹의 분산을 각각 계산하고, 그 비율을 취하면 F-분포를 얻을 수 있습니다. 이것은 각 그룹의 분산을 비교하여 그룹 간의 차이를 파악하는 데 사용됩니다.

F-분포의 모양은 자유도에 따라 달라지며, 일반적으로 오른쪽으로 꼬리가 긴 모양을 가집니다. 이 분포를 사용하여 실험 결과가 우연히 발생한 것인지, 아니면 진짜로 두 그룹 간에 유의한 차이가 있는지를 파악할 수 있습니다.

 

출처 : 위키피디아

 

F-분포(F-distribution)는 두 개의 카이제곱분포를 이용하여 정의되는 확률분포입니다. 주로 두 모집단의 분산이 같은지를 검정하는 등분산성 검정에 사용됩니다.

카이제곱분포가 단일 모집단의 분산을 나타내고 F분포는 두 집단의 분산을 나타냅니다.
자유도는 분자에 해당하는 카이제곱분포의 자유도와 분모에 해당하는 카이제곱분포의 자유도에 의해 결정됩니다.

 

F=S2X/S2Yσ21/σ22=S2X/σ21S2Y/σ22Fm1,n1

 

위 분자, 분모는 각각 카이제고분포를 따릅니다.

 

분자 : (m1)S2X/σ21χ2m1

분모 : (n1)S2Y/σ22χ2n1

 

 

(4) 중심축량

 

중심축량은 아래와 같이 사용합니다.

 

F=S2X/σ21S2Y/σ22Fm1,n1

F=1F=S2Y/σ22S2X/σ21Fn1,m1

 

분자, 분모를 바꾸면 비대칭 형태를 가집니다.

 


 

2. 구간 추정

 

두 모분산의 비에 대한 구간 추정은 위 중심축량을 기준으로 신뢰구간을 정하게 됩니다.
유도과정을 살펴보면 아래와 같습니다.

 

σ21/σ22)에 대한 100(1α) 신뢰구간을 나타내면,

 

1α=P(F1α/2,m1,n1<F<Fα/2,m1,n1)

=P(F1α/2,m1,n1<S2X/S2Yσ21/σ22<Fα/2,m1,n1)

=P(S2X/S2YFα/2,m1,n1<σ21/σ22<S2X/S2YF1α/2,m1,n1)

 

 

위 식에서 모분산비에 대한 신뢰구간은 아래와 같이 정리할 수 있습니다.

 

(S2X/S2YFα/2,m1,n1,S2X/S2YF1α/2,m1,n1)

 


 

3. 가설검정

 

가설검정의 절차를 살펴보면, 가설을 설정하고 검정통계량을 구하고 구한 검정통계량의 분포와 유의수준을 비교 검토후 기각 또는 채택의 결론을 내리게 됩니다.

(1) 가설 설정
     

     귀무가설(H0) : 현상태에 대한 잠정적 가정
     대립가설(H1) : 우리가 알고 싶은 것

 

 H0:σ21/σ22=δ20vsH1:{σ21/σ22>δ20σ21/σ22<δ20σ21/σ22δ20

 

 

(2) 검정통계량  : 귀무가설하에서 표본의 비정상성을 결정하기 위해 사용되는 통계량

 

F0=S2X/S2Yδ0Fm1,n1


(3) 검정통계량의 분포와 유의수준을 비교 검토합니다.

 

 유의수준을 α라고 하면 기각역 {(Fα,m1,n1,)(0,F1α,m1,n1)(0,F1α/2,m1,n1),(Fα/2,m1,n1,)

 

(4) 결론


기각역(비정상영역) : 귀무가설 기각 (대립가설 채택)
채택역(정상영역) : 귀무가설 유지 (대립가설 기각)