일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 이원배치 분산분석
- 이항분포
- 정규분포
- 가설검정
- 통계학
- 에세이
- 경제학
- r
- version 1
- html
- 확률
- 인공지능
- 변량효과모형
- 변동분해
- 산점도
- 해운업
- 오블완
- 회귀분석
- 데이터 과학
- 추정
- 반복없음
- 고정효과모형
- version 2
- css
- JavaScript
- 반복있음
- 혼합효과모형
- 티스토리챌린지
- 분산분석
- 글쓰기
- Today
- Total
생각 작업실 The atelier of thinking
81. R 을 이용한 두 그룹의 비율 비교 본문
Chapter 81. R을 이용한 두 그룹의 비율비교
두 그룹간 비율비교에 사용할 함수는 prop.test( ) 입니다.
단일 모집단의 모비율에 대한 통계적추론에서 사용했던 함수입니다.
모비율에 대한 통계적 추론은 모집단에서 특정 범주형 변수의 비율을 추정하고 이에 대한 가설을 검정하는 것을 의미합니다.
▶ prop.test( )
prop.test(x, n, p = NULL, alternative = "two.sided", conf.level = 0.95
, correct = TRUE)
x : 성공한 횟수 (또는 벡터)
n : 시도한 전체 횟수 (또는 벡터)
p : 귀무가설에서의 비율 (옵션)
alternative : 대립가설 종류 (default는 'two.sided'이며, 'less'와 'greater'도 가능)
conf.level: 신뢰구간 (default는 0.95)
correct: 연속성 수정(continuity correction)을 사용할지 여부를 지정합니다.
기본값은 TRUE입니다.
◈ 예제 : 아스피린 예방효과
아스피린 복용에 관련 실험을 한 결과입니다. 총 22,071명에게 아스피린과 위약을 복용하여 나타난 결과입니다.
그룹 | 심장마비 | 뇌졸증 | 전체 |
아스피린 | 139 | 119 | 11,037 |
위약 | 239 | 98 | 11,034 |
전체 | 378 | 217 | 22,071 |
▶ 위 결과를 보고 아스피린 복용이 심장마비 예방효과가 있다 라고 할 수 있을까?
귀무가설은 "아스피린 복용이 심장마비 예방효과가 없다"가 될 것입니다. 이를 식으로 나타낸다면, 아스피린 복용시 심장마비 비율과 위약 복용시 심장마비 비율은 같다라고 할 수 있습니다.
아스피린 복용시 심장마비 비율을 $\theta_A$ 라 하고, 위약 복용시 심장마비 비율을 $\theta_P$라 했을 때, 이를 대신으로 각각의 표본비율은 아래와 같습니다.
$$ P_A = \frac{139}{11037} = 0.013, \quad P_P=\frac{239}{11034}=0.022$$
R 코드를 이용하여 작성하면 아래와 같습니다.
heart <- c(139,239)
total <- c(11037,11034)
prop.test(heart,total)
2-sample test for equality of proportions with continuity correction
data: heart out of total
X-squared = 26.408, df = 1, p-value = 2.764e-07
alternative hypothesis: two.sided
95 percent confidence interval:
-0.012578314 -0.005554327
sample estimates:
prop 1 prop 2
0.01259400 0.02166032
위 결과는 양측검정으로 귀무가설은 두 비율은 같다 입니다.
95% 신뢰구간은 "-0.012578314 -0.005554327"로 0을 포함하지 않고 있으며 P-value 역시 "2.764e-07" 로 매우 낮은 값을 가지므로 귀무가설은 기각됩니다. 즉, 아스피린 복용시와 위약 복용시 심장마비 비율은 같지 않다는 것을 의미합니다.
아스피린 예방효과가 있다는 것은 아스피린 복용시 심장마비 비율이 위약 복용시 심장마비 비율보다 낮다는 것을 말합니다. 따라서, 낮은 쪽의 단측검정을 통하여 구할 수 있습니다.
prop.test(heart,total,alternative="less")
2-sample test for equality of proportions with continuity correction
data: heart out of total
X-squared = 26.408, df = 1, p-value = 1.382e-07
alternative hypothesis: less
95 percent confidence interval:
-1.000000000 -0.006104394
sample estimates:
prop 1 prop 2
0.01259400 0.02166032
단측검정에서도 p-value는 1.382e-7 으로 0에 가깝게 나타나므로 귀무가설은 기각됩니다.
아스피린 복용시 심장마비 비율이 낮다는 것을 말합니다.
◈ 예제 : 신체검사 자료
2024.06.19 - [통계학 이야기] - 77. R을 이용한 두 그룹의 평균 비교
77. R을 이용한 두 그룹의 평균 비교
Chapter 77. R을 이용한 두 그룹의 평균 비교 두 그룹의 평균을 비교할 때 사용할 수 있는 R의 함수는 t.test( )입니다. 앞서 단일 모집단의 모평균을 추론할 때에도 t.test( )를 사용했었
thinking-atelier.tistory.com
앞서 두 그룹의 평균 비교에 사용했던 자료입니다. 이 자료를 두 그룹의 비율 비교 방식으로 추론을 해보겠습니다.
health <- read.csv("신체검사.csv",header = TRUE, fileEncoding = "CP949",
encoding = "UTF-8")
head(health)
ID 나이 성별 수축혈압 이완혈압 콜레스테롤1 콜레스테롤2
1 1 42 F 120 95 196 220
2 2 53 M 122 72 230 232
3 3 53 M 132 88 242 223
4 4 48 F 128 79 239 209
5 5 53 F 118 74 204 198
6 6 58 F 130 72 210 245
▶ 운동 전 콜레스테롤 1 이 운동 후 콜레스테롤 2 가 감소한 사람의 비율로 운동효과가 있었는지 5% 유의수준에서 검정하려면 ?
비율비교는 범주형 자료시 적용되므로 우선 위 자료를 범주형 자료 형태로 바꾸어야 합니다.
health$diff <- health$콜레스테롤1 - health$콜레스테롤2
health$pm <- ifelse(health$diff > 0, "감소", "증가")
ID 나이 성별 수축혈압 이완혈압 콜레스테롤1 콜레스테롤2 diff pm
1 1 42 F 120 95 196 220 -24 증가
2 2 53 M 122 72 230 232 -2 증가
3 3 53 M 132 88 242 223 19 감소
4 4 48 F 128 79 239 209 30 감소
5 5 53 F 118 74 204 198 6 감소
6 6 58 F 130 72 210 245 -35 증가
이를 표로 정리하면,
table(health$pm)
감소 증가
37 13
R 코드로 비율 검정을 하면,
prop.test(37,50,alternative = "greater")
1-sample proportions test with continuity correction
data: 37 out of 50, null probability 0.5
X-squared = 10.58, df = 1, p-value = 0.0005716
alternative hypothesis: true p is greater than 0.5
95 percent confidence interval:
0.6169157 1.0000000
sample estimates:
p
0.74
p-value 는 0.0005716으로 귀무가설은 기각됩니다. 따라서 대립가설을 채택합니다.
대립가설은 0.5보다 크다 즉, 운동 후 콜레스테롤은 감소 효과가 있다고 할 수 있습니다.
▶ 운동 전 콜레스테롤 1 이 운동 후 콜레스테롤 2 가 감소한 사람의 비율이 남녀별로 운동효과가 차이가 있었는지 5% 유의수준에서 검정하려면 ?
성별을 추가하여 표로 작성하면,
table(health$성별,health$pm)
감소 증가
F 14 8
M 23 5
R 코드를 이용하여 성별 비율 비교를 해보면,
effect <- c(14,23)
ttl <- c(22,28)
prop.test(effect, ttl)
2-sample test for equality of proportions with continuity correction
data: effect out of ttl
X-squared = 1.3367, df = 1, p-value = 0.2476
alternative hypothesis: two.sided
95 percent confidence interval:
-0.4716784 0.1015485
sample estimates:
prop 1 prop 2
0.6363636 0.8214286
위 결과는 양측검정으로 P-value는 0.2476 으로 유의수준 5% 보다 크게 나타나므로 귀무가설을 기각할 수 없습니다. 즉 성별 운동 효과는 차이가 없다고 할 수 있습니다.
prop.test(effect, ttl, alternative = "less")
2-sample test for equality of proportions with continuity correction
data: effect out of ttl
X-squared = 1.3367, df = 1, p-value = 0.1238
alternative hypothesis: less
95 percent confidence interval:
-1.00000000 0.06199356
sample estimates:
prop 1 prop 2
0.6363636 0.8214286
단측검정을 하더라고 p-value는 0.1238 로 귀무가설을 기각할 수 없습니다.
'통계학 이야기' 카테고리의 다른 글
83. 분산분석의 검정통계량 (0) | 2024.06.26 |
---|---|
82. 분산분석(ANOVA)이란 (0) | 2024.06.25 |
80. 두 그룹의 비율 비교 (0) | 2024.06.23 |
79. R 을 이용한 F분포 및 등분산성 검정 (0) | 2024.06.21 |
78. 두 그룹간 분산 비교 - F 분포 (1) | 2024.06.20 |