일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 추정
- version 1
- 티스토리챌린지
- 이항분포
- 이원배치 분산분석
- 오블완
- 혼합효과모형
- 에세이
- 인공지능
- 분산분석
- 가설검정
- 반복있음
- 회귀분석
- 경제학
- JavaScript
- 정규분포
- 변동분해
- 해운업
- version 2
- 반복없음
- 고정효과모형
- r
- 산점도
- 변량효과모형
- css
- 확률
- 통계학
- html
- 글쓰기
- 데이터 과학
- Today
- Total
생각 작업실 The atelier of thinking
78. 두 그룹간 분산 비교 - F 분포 본문
Chapter 78. 두 그룹간 분산 비교 - F 분포
두 그룹에 대한 통계적 추론을 수행할 때 정규성 검정과 등분산성 검정이 필요합니다.
정규성 검정(Normality Test)은 데이터가 정규분포를 따르는지 여부를 확인하는 것입니다. 많은 통계적 추정 및 가설 검정 방법은 데이터가 정규분포를 따를 때 최적의 성능을 보입니다. 또한, 중심극한정리에 따르면, 표본 평균의 분포는 표본 크기가 충분히 크면 정규분포에 근접하게 됩니다. 따라서 정규성 검정을 통해 데이터가 정규분포를 따르는지 확인하는 것은 통계적 추론의 타당성을 평가하는 데 도움이 됩니다.
등분산성 검정(Homogeneity of Variance Test) 은 두 그룹 간의 분산이 동일한지 여부를 확인하는 것입니다. 많은 통계적 분석 방법은 등분산 가정을 전제로 합니다. 등분산성이 충족되지 않을 경우에는 분석 결과가 왜곡될 수 있습니다. 따라서 등분산성 검정을 통해 두 그룹 간의 분산이 유사한지 여부를 확인하는 것이 필요합니다.
정규성 검정과 등분산성 검정은 모수적 통계 분석의 전제 조건을 확인하는 데 중요한 도구입니다. 이러한 검정을 통해 추론 결과의 타당성을 평가하고, 적절한 통계 분석 방법을 선택할 수 있습니다.
이번 회차에서는 두 그룹의 분산을 비교하여 등분산성을 확인하는 통계적추론에 대하여 알아보겠습니다.
1. 모집단 가정
모집단이 정규성 가정의 적절한지 확인이 필요할 때 사용하는 방법이 Shapiro-Wilk Test, Jacque-Bera Test 등이 있습니다. 이는 R 등의 통계프로그램을 통해 확인해 볼 수 있습니다.
우선 정규 모집단을 가정하고 통계적 추론을 진행하겠습니다.
(1) 확률표본
X1,X2,...,Xm∼iidN(μ1,σ21)
Y1,Y2,...,Yn∼iidN(μ2,σ22)
⟹X1,X2,...,Xm 와 Y1,Y2,...,Yn 은 서로 독립인 경우를 가정.


정규 모집단의 분산이 같으냐 다르냐에 따라 판단이 달라질 수 있습니다.
(2) 점추정
두 그룹에서의 분산이 같은지 다른지가 주요 관심사항이 됩니다.
σ21=σ22
두 분산이 같은지에 대한 표현은 아래와 같이 할 수 있습니다.
σ21−σ22=0
σ21/σ22=1orσ22/σ21=1
두 분산의 차이가 0인지 혹은 두 분산의 비가 1인지 여부에 따라서 확인할 수 있습니다.
다만, 분산의 차이가 음수로 나오면 여러 계산상의 어려움이 발생할 수 있습니다. 따라서 두 분산의 비로 표현하는 경우가 많습니다.
점 추정량은 표본분산비로 사용합니다.
σ21/σ22⟸S21/S22
(3) F 분포
F-분포는 두 개의 분산을 비교하는 데 사용되는 확률분포입니다. 예를 들어, 두 그룹의 분산이 같은지를 확인하거나 실험 그룹과 대조 그룹의 분산 차이를 평가하는 데 사용됩니다.
이것을 좀 더 쉽게 설명하자면, F-분포는 우리가 알고 있는 표준 편차를 비교하는 도구라고 할 수 있습니다. 두 그룹의 분산을 각각 계산하고, 그 비율을 취하면 F-분포를 얻을 수 있습니다. 이것은 각 그룹의 분산을 비교하여 그룹 간의 차이를 파악하는 데 사용됩니다.
F-분포의 모양은 자유도에 따라 달라지며, 일반적으로 오른쪽으로 꼬리가 긴 모양을 가집니다. 이 분포를 사용하여 실험 결과가 우연히 발생한 것인지, 아니면 진짜로 두 그룹 간에 유의한 차이가 있는지를 파악할 수 있습니다.

F-분포(F-distribution)는 두 개의 카이제곱분포를 이용하여 정의되는 확률분포입니다. 주로 두 모집단의 분산이 같은지를 검정하는 등분산성 검정에 사용됩니다.
카이제곱분포가 단일 모집단의 분산을 나타내고 F분포는 두 집단의 분산을 나타냅니다.
자유도는 분자에 해당하는 카이제곱분포의 자유도와 분모에 해당하는 카이제곱분포의 자유도에 의해 결정됩니다.
F=S2X/S2Yσ21/σ22=S2X/σ21S2Y/σ22∼Fm−1,n−1
위 분자, 분모는 각각 카이제고분포를 따릅니다.
분자 : (m−1)S2X/σ21∼χ2m−1
분모 : (n−1)S2Y/σ22∼χ2n−1
(4) 중심축량
중심축량은 아래와 같이 사용합니다.
F=S2X/σ21S2Y/σ22∼Fm−1,n−1
F∗=1F=S2Y/σ22S2X/σ21∼Fn−1,m−1
분자, 분모를 바꾸면 비대칭 형태를 가집니다.
2. 구간 추정
두 모분산의 비에 대한 구간 추정은 위 중심축량을 기준으로 신뢰구간을 정하게 됩니다.
유도과정을 살펴보면 아래와 같습니다.
σ21/σ22)에 대한 100(1−α) 신뢰구간을 나타내면,
1−α=P(F1−α/2,m−1,n−1<F<Fα/2,m−1,n−1)
=P(F1−α/2,m−1,n−1<S2X/S2Yσ21/σ22<Fα/2,m−1,n−1)
=P(S2X/S2YFα/2,m−1,n−1<σ21/σ22<S2X/S2YF1−α/2,m−1,n−1)
위 식에서 모분산비에 대한 신뢰구간은 아래와 같이 정리할 수 있습니다.
(S2X/S2YFα/2,m−1,n−1,S2X/S2YF1−α/2,m−1,n−1)
3. 가설검정
가설검정의 절차를 살펴보면, 가설을 설정하고 검정통계량을 구하고 구한 검정통계량의 분포와 유의수준을 비교 검토후 기각 또는 채택의 결론을 내리게 됩니다.
(1) 가설 설정
귀무가설(H0) : 현상태에 대한 잠정적 가정
대립가설(H1) : 우리가 알고 싶은 것
H0:σ21/σ22=δ20vsH1:{σ21/σ22>δ20σ21/σ22<δ20σ21/σ22≠δ20
(2) 검정통계량 : 귀무가설하에서 표본의 비정상성을 결정하기 위해 사용되는 통계량
F0=S2X/S2Yδ0∼Fm−1,n−1
(3) 검정통계량의 분포와 유의수준을 비교 검토합니다.
유의수준을 α라고 하면 기각역 {①(Fα,m−1,n−1,∞)②(0,F1−α,m−1,n−1)③(0,F1−α/2,m−1,n−1),(Fα/2,m−1,n−1,∞)
(4) 결론
기각역(비정상영역) : 귀무가설 기각 (대립가설 채택)
채택역(정상영역) : 귀무가설 유지 (대립가설 기각)
'통계학 이야기' 카테고리의 다른 글
80. 두 그룹의 비율 비교 (0) | 2024.06.23 |
---|---|
79. R 을 이용한 F분포 및 등분산성 검정 (0) | 2024.06.21 |
77. R을 이용한 두 그룹의 평균 비교 (0) | 2024.06.19 |
76. 두 그룹간 평균 비교 - 대응표본 (1) | 2024.06.18 |
75. 두 그룹간 평균 비교 - 독립표본 II (1) | 2024.06.17 |