생각 작업실 The atelier of thinking

72. R 을 이용한 모비율에 대한 통계적 추론 본문

통계학 이야기

72. R 을 이용한 모비율에 대한 통계적 추론

knowledge-seeker 2024. 6. 13. 12:01

Chapter 72. R을 이용한 모비율에 대한 통계적 추론

 

모비율에 대한 통계적 추론은 모집단에서 특정 범주형 변수의 비율을 추정하고 이에 대한 가설을 검정하는 것을 의미합니다. 이러한 추론은 주어진 표본을 사용하여 모비율에 대한 추정치를 계산하고, 이 추정치의 신뢰구간을 구하거나 가설을 검정하여 모비율이 특정 값과 같은지 여부를 판단합니다.

이번 회차에는 R을 이용한 모비율에 대한 통계적 추론에 대하여 알아보고자 합니다.
우선 R을 이용하여 모비율에 대한 구간 추정과 가설 검정에 대해 살펴보겠습니다.

 

1. 구간 추정

 

아래는 모비율의 중심축량입니다.

 

$$ Z_0 = \frac{P-\theta_0}{\sqrt{\theta_0(1-\theta_0)/n}} \simeq N(0, 1) $$

 

모비율의 통계적 추론에 사용하는 함수는 prop.test( ) 입니다.

 

prop.test(x, n, p = NULL, alternative = "two.sided", conf.level = 0.95)

x : 성공한 횟수 (또는 벡터)
n : 시도한 전체 횟수 (또는 벡터)
p : 귀무가설에서의 비율 (옵션)
alternative : 대립가설 종류 (default는 'two.sided'이며, 'less'와 'greater'도 가능)
conf.level: 신뢰구간 (default는 0.95)

 

prop.test() 함수는 귀무가설과 대립가설을 설정하여, 검정 통계량과 p-value를 계산하고 해당 비율에 대한 신뢰 구간도 계산할 수 있습니다.

 

◈ 예제 : 세 가지 스마트폰 모델에 대한 남녀별로 선호도 비교

 

2023.09.21 - [통계학 이야기] - 24. 범주형 자료 요약

 

24. 범주형 자료 요약

Chapter 24. 범주형 자료 요약 1. 범주형 자료란 범주형 자료는 각각의 데이터가 명목상의 범주(category) 또는 서열상의 범주(ordinal) 중 하나에 속하는 자료를 말합니다. 명목형 자료는 분류를 목적으

thinking-atelier.tistory.com

 

지난 범주형 자료요약에서 사용했던 자료입니다.

smart.csv
0.00MB

성별 스마트폰 모델 합계
A B C
남자 35 23 18 76
여자 17 33 20 70
합계 52 56 38 146

 

남성이 선호하는 모델
여성이 선호하는 모델

 

이 자료는 146명에 대한 선호도 조사결과입니다.

 

모비율에 대한 통계적 추론은 위 결과값이 우연이 나온 값이 아니라 통계적으로 유의한 의미가 있는지 파악하기 위한 방법입니다.

 

각 스마트폰 모델의 남녀선호도에 대해서 알아보겠습니다.

 

n_A <- 52
x_A <- 35
p_A <- x_A/n_A

 

 

▶ "A 모델에 대한 남녀선호도가 같다"에 대한 95% 신뢰구간은 ?

 

prop.test(x_A,n_A)
	1-sample proportions test with continuity correction

data:  x_A out of n_A, null probability 0.5
X-squared = 5.5577, df = 1, p-value = 0.0184
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
 0.5277723 0.7928435
sample estimates:
        p 
0.6730769

 

"95 percent confidence interval" 은 해당 검정 결과로부터 관심 범주의 실제 비율이 포함될 가능성이 높은 구간, 즉 신뢰구간은 " 0.5277723, 0.7928435" 입니다.

 


 

2. 가설검정

 

(1) A 모델

 

A 모델에 대한 남성선호도가 높은지 가설 검정을 하기 위해서는,
"A 모델에 대한 남성의 선호도가 높다" 가 대립가설로, "A 모델에 대한 남녀 선호도는 같다"는 귀무가설로 설정합니다.

prop.test(x_A,n_A,p=0.5,alternative="greater")
	1-sample proportions test with continuity correction

data:  x_A out of n_A, null probability 0.5
X-squared = 5.5577, df = 1, p-value = 0.0092
alternative hypothesis: true p is greater than 0.5
95 percent confidence interval:
 0.5499827 1.0000000
sample estimates:
        p 
0.6730769

 

위 결과는 1-sample proportions test with continuity correction으로, 표본 데이터에서 관심 있는 범주의 비율이 기존의 주장한 비율과 다른지에 대한 검정 결과입니다.

 

  • "X-squared" : 검정통계량(chi-squared statistic)으로 5.5577 입니다.
  • "df" : 자유도(degree of freedom)를 의미하며, 위 경우의 검정에서는 1입니다.
  • "p-value" : 귀무가설이 맞을 때, 해당 검정통계량 이상의 극단적인 값이 나올 확률입니다. 유의수준이 0.05인 경우 p-value가 0.05보다 작으면 귀무가설을 기각합니다. 위 결과에서 p-value가 매우 작으므로 귀무가설을 기각할 수 있으며, 즉, 관심 범주의 실제 비율이 0.5와 다르다는 것을 알 수 있습니다.
  • "alternative hypothesis: true p is greater than 0.5" : 이 검정에서는 2가지 가설을 세우게 되는데, 귀무가설은 관심 범주의 비율이 주장한 값(여기서는 0.5)과 같다는 것이며, 대립가설은 0.5보다 크다는 것입니다.
  • 95% 신뢰 구간: [0.5499827, 1.0000000] : 이는 A 모델의 성공 확률(선호도)에 대한 신뢰 구간을 나타냅니다.
    샘플 추정치(sample estimates): A 그룹에서의 성공 확률(p)은 0.6730769로 추정됩니다.


요약하면, 해당 결과는 A 모델의 선호도가 0.5보다 크다는 것을 나타내며, 이는 통계적으로 유의미한 결과입니다.

(2) B 모델

 

B 모델의 여성선호도가 높은지 가설 검정을 위해서는
"B 모델에 대한 여성의 선호도가 높다" 가 대립가설로, "B 모델에 대한 남녀 선호도는 같다"는 귀무가설로 설정합니다.

 

n_B <- 56
x_B <- 33
p_B <- x_B/n_B

# 가설검정
prop.test(x_B,n_B,p=0.5,alternative="greater")
	1-sample proportions test with continuity correction

data:  x_B out of n_B, null probability 0.5
X-squared = 1.4464, df = 1, p-value = 0.1146
alternative hypothesis: true p is greater than 0.5
95 percent confidence interval:
 0.4706453 1.0000000
sample estimates:
        p 
0.5892857

 

p-value: 0.1146로, 유의 수준 0.05에서 유의미한 결과를 나타내지 않습니다. 이는 귀무 가설을 기각할 충분한 증거가 부족하다는 것을 의미합니다.
95% 신뢰 구간: [0.4706453, 1.0000000]로, 이는 B 그룹에서의 성공 확률에 대한 신뢰 구간을 나타냅니다.

 

요약하면, 해당 결과는 B 모델의 여성 선호도가 0.5보다 크다는 것을 나타내지 않으며, 통계적으로 유의미한 결과를 보이지 않습니다. 즉, "B 모델의 남녀 선호도는 같다"라는 귀무가설을 유지합니다.

 


 

위 결과를 종합해보면, 남성의 A 모델에 대한 선호도가 높게 나온 것은 5% 유의수준으로 높은 것으로 확인되었지만, 여성의 B 모델에 대한 선호도가 높게 나온 것은 5% 유의수준으로 높다고 할 수는 없다고 말할 수 있습니다. 즉, 선호도가 높지 않아도 이러한 결과가 나올 수 있다는 것으로 선호도 차이가 없다는 것입니다.

 


3. 표본크기결정(비율)

 

(1) 구간 추정에 기반한 표본크기

 

앞서 확인한 표본크기 공식은 아래와 같습니다.

 

$$ n = \left( \frac{z_{\alpha/2}}{\delta}\right)^2 \frac{1}{4}$$

 

$\theta$ 가 0.5일 때 $\theta(1-\theta)$ 가 가장 크기 때문입니다.

 

이 식을 R을 이용하여 함수로 만들면 아래와 같습니다.

 

SizePropCI <- function(Error, Conf.level=0.95)
{
  alpha <- (1-Conf.level)/2
  (qnorm(1-alpha)/Error)^2/4  
}

 

◈ 예제 : 여론조사


95% 신뢰수준에서 오차범위가 5% ( = 0.05) 이내의 결과를 내기위한 여론조사를 최소 몇 명을 해야하나?

 

SizePropCI(0.05,0.95)
[1] 384.1459

 

n=384.1459이므로 최소한 385명을 조사해야 합니다.

 

 

(2) 가설 검정을 위한 표본크기

 

가설 검정을 위한 표본크기를 구하는 공식은 아래와 같습니다.

 

$$ n = \frac{(z_\alpha\sqrt{\theta_0(1-\theta_0)} + z_\beta\sqrt{\theta_1(1-\theta_1)})^2}{\delta^2}$$

 

이를 R을 이용하여 함수로 만들면 아래와 같습니다.

SizePropTest <- function(prop1,prop2,Alpha=0.05,Power=0.8)
{
  delta = prop2-prop1
  term <- qnorm(1-Alpha/2)*sqrt(prop1*(1-prop1))+qnorm(Power)*sqrt(prop2*(1-prop2))
  (term/delta)^2
}

 

◈ 예제 : 임상시험


기존 진통제를 복용했을 때 진통효과를 10시간 이상 지속될 확률은 40%였는데 예비연구결과 새로운 진통제는 50%라고 하자. 5% 유의수준과 80% 검정력으로 유효성 평가를 하려면 몇 명의 피험자를 대상으로 임상시험을 진행해야 하는가 ?

 

SizePropTest(0.4,0.5)
[1] 190.7142

 

최소 191명이 필요합니다.