생각 작업실 The atelier of thinking

67. R을 이용한 모평균에 대한 통계적 추론 본문

통계학 이야기

67. R을 이용한 모평균에 대한 통계적 추론

knowledge-seeker 2024. 6. 8. 12:12

Chapter 8. R을 이용한 모평균에 대한 통계적 추론

 

 

모평균에 대한 통계적 추론은 표본을 통해 모집단의 평균에 대한 정보를 얻고자 하는 과정입니다. 표본을 통하여 모집단의 평균을 추정하는 것을 말합니다.

이번 회차에는 R을 이용한 모평균에 대한 통계적 추론에 대하여 알아보고자 합니다.
우선 R을 이용하여 정규성 가정이 적절한지 여부를 확인한 후에 구간 추정과 가설 검정에 대해 살펴보겠습니다.

 


1. 정규성 가정 확인

 

 정규성 가정은 모집단의 분포가 정규분포와 유사하게 분포하는 것을 가정하는 가설 검정의 매우 중요한 가정 중 하나이다. 만약 이 가정이 맞지 않으면, 가설 검정 결과에 대한 신뢰도가 떨어지거나 잘못된 결론을 내릴 가능성이 있습니다.

정규분포는 통계 분석에서 매우 중요한 역할을 한다. 특히, 정규분포를 따르는 변수의 경우, 중심극한정리에 의해 표본 평균이 정규분포를 따르므로 모집단 평균에 대한 추론을 하기 쉬워집니다. 따라서, 정규성 가정이 맞지 않을 경우, 추론의 정확성이 떨어질 수 있습니다.

따라서, 정규성 가정을 확인하는 것은 통계적 분석의 기본적인 단계 중 하나이며, 정규성 가정을 만족하지 않는 경우, 대안적인 방법을 고려하거나 적절한 변환을 통해 가정을 만족시키는 것이 필요하다.

 

◈ 예제 : 통계학 관련학과 대학 정보 공시 취업률 자료

55.6 83.3 43.4 58.1 31.6 55.6 60.7 64.6 73.3 55.6
64.3 52.8 22.7 46.3 71.4 53.8 64.5 67.9 71.4 80.0
59.5 40.5 77.1 58.6 65.4 52.4 66.7 91.3 41.3 72.1
61.9 78.4 63.6 41.0 65.2 81.3 54.8 19.6 50.0 53.1
41.2 56.5

 

(1) 자료 불러오기

employ <- scan() 
55.6 83.3 43.4 58.1 31.6 55.6 60.7 64.6 73.3 55.6 64.3 52.8 22.7 46.3 71.4
53.8 64.5 67.9 71.4 80.0 59.5 40.5 77.1 58.6 65.4 52.4 66.7 91.3 41.3 72.1 
61.9 78.4 63.6 41.0 65.2 81.3 54.8 19.6 50.0 53.1 41.2 56.5

 

위 자료는 통계학 관련 42개 학과의 취업률을 나타내고 있습니다.

 

(2) 정규성 검정

 

▶ shapiro.test( ) 함수

샤피로-윌크 검정을 수행하여 표본이 정규분포를 따르는지 여부를 검정합니다.

 

shapiro.test(employ)
Shapiro-Wilk normality test

data:  employ
W = 0.97943, p-value = 0.6396

 

이 함수는 검정통계량 W와 p-value를 반환합니다.
p-value가 유의수준보다 작으면 귀무가설을 기각하고, 표본이 정규분포를 따르지 않는다는 것을 의미합니다.

shapiro.test() 함수 결과를 해석하는 방법은 다음과 같습니다.
귀무가설(H0) : 표본이 정규분포를 따른다.
대립가설(H1) : 표본이 정규분포를 따르지 않는다.

p-value 값이 유의수준 (일반적으로 0.05) 보다 작을 경우, 귀무가설을 기각하며 대립가설을 채택합니다. 즉, 표본이 정규분포를 따르지 않는다고 결론내립니다. 반대로, p-value 값이 유의수준보다 크다면 귀무가설을 기각하지 못하며, 표본이 정규분포를 따른다고 결론내립니다.

또한, W 값이 1에 가까울수록 정규분포에 가깝다는 것을 의미합니다. 따라서 W 값이 1에 가까울수록 정규분포 가정이 성립한다고 판단할 수 있습니다.

위 예제는 W 는 0.97943 , p-value는 0.6396 으로 정규분포에 따른다고 결론내릴 수 있습니다.


 

2. T- 검정 ( T-Test)

 

T-검정은 T-분포를 이용해서 검정을 수행하는 방법이기 때문에 T- 검정이라는 이름이 붙여졌습니다. T-검정은 모집단의 분산을 알지 못할 때, 작은 샘플(표본)에서 모집단의 평균을 검정하는 데 사용됩니다. 표본의 크기가 작을 때, 모집단이 정규분포를 따르지 않을 때에도 사용할 수 있습니다. T-검정은 비교하려는 두 집단의 평균이 같은지 다른지를 검정하는 데에도 사용됩니다.

모평균의 통계적 추론을 할 때 사용하는 함수는 t.test( ) 입니다.

 

t.test(x, y = NULL,
       alternative = c("two.sided", "less", "greater"),
       mu = 0, paired = FALSE,
       conf.level = 0.95, ...)
  
  
x : 일표본 또는 이표본 데이터 셋이거나 차이가 평가되는 대응표본 데이터 셋
y : 비교할 이표본 데이터 셋. 일표본 또는 대응표본 t-검정의 경우에는 NULL로 설정
alternative: 검정의 양측성(two.sided) 또는 단측성(less, greater)을 설정, 
             기본값은 "two.sided"
mu: 일표본 또는 이표본 t-검정의 경우에 대한 귀무가설의 평균 값. 기본값은 0.
paired: 대응표본 t-검정을 수행할 때 TRUE로 설정. 기본값은 FALSE
conf.level: 신뢰구간을 설정, 기본값은 0.95

 

t.test( ) 함수는 t-검정의 검정통계량 및 p-값을 계산하고, 검정 결과를 요약한 결과를 출력합니다.

 


 

3. 구간추정과 가설검정


R에서 모평균에 대한 구간추정과 가설검정은 t.test( ) 함수로 구할 수 있습니다.

 

t.test(employ)
	One Sample t-test

data:  employ
t = 24.506, df = 41, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
 53.92813 63.61473
sample estimates:
mean of x 
 58.77143

 

" One Sample t-test " 는 하나의 데이터 셋에서 나왔다는 의미입니다.
"data" 는 데이터 셋을 말합니다.

위 결과값에서 "95 percent confidence interval : 53.92813 63.61473" 는 구간 추정 결과값입니다.
신뢰구간 기본값은 0.95 입니다.
"mean of x 58.77143 " 으로 데이터의 평균은 58.77143 임을 알 수 있습니다.

신뢰구간 99%로 구간추정은 아래와 같습니다.

t.test(employ, conf.level=0.99)
       One Sample t-test

data:  empl
t = 24.506, df = 41, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
99 percent confidence interval:
 52.29340 65.24945
sample estimates:
mean of x 
 58.77143

 

구간추정 결과값은 "99 percent confidence interval: 52.29340 65.24945" 입니다.
이외 다른 부분의 값은 위에서와 동일하게 나타납니다.

 

(2) 가설검정

 

◈ 예제 : 통계학 관련학과 대학 정보 공시 취업률 자료

해당연도의 전체 대졸취업률은 54.5% 정도가 된다고 할 때 통계학 관련학과의 취업률 평균이 전체 취업률보다 높다고 할 수 있는가?

귀무가설 : 통계학 관련학과의 취업률 평균이 전체취업률보다 낮거나 같다.
대립가설 : 통계학 관련학과의 취업률 평균이 전체취업률보다 높다.

 

t.test( ) 에서 가설검정을 위해서는 귀무가설의 평균을 넣어주면 됩니다.

 

t.test(employ, mu=54.5)

 

	One Sample t-test

data:  empl
t = 1.7811, df = 41, p-value = 0.08231
alternative hypothesis: true mean is not equal to 54.5
95 percent confidence interval:
 53.92813 63.61473
sample estimates:
mean of x 
 58.77143 
"alternative hypothesis: true mean is not equal to 54.5"

 

"대립가설은 54.5와 같지 않다" 라고 나타납니다. 이는 기본값이 양측검정이기 때문입니다. 위 예제에서 대립가설은 "평균이 높다"라는 것을 검정하고자 합니다.
이를 위한 속성은 "alternative" 입니다. 단측검정을 위해서는 less 또는 greater 라는 값을 주어집니다. 이 예제는 높다는 것에 대한 단측검정이므로 greater를 사용합니다.

 

t.test(employ, mu=54.5, alternative="greater")
     One Sample t-test

data:  empl
t = 1.7811, df = 41, p-value = 0.04115
alternative hypothesis: true mean is greater than 54.5
95 percent confidence interval:
 54.73552      Inf
sample estimates:
mean of x 
 58.77143 
"alternative hypothesis: true mean is greater than 54.5"

 

대립가설은 "54.5보다 크다"라고 잘 설정되었습니다.

"p-value = 0.04115" : P-값이 0.04115 로 나왔습니다.
유의수준을 0.05로 한다면 귀무가설은 기각하게 됩니다.

"t = 1.7811"
t 값이 크면 클수록 표본 간의 차이가 표준 오차에 대해 더 크다는 것을 의미하며, 따라서 귀무가설을 기각할 가능성이 높아집니다. 하지만 t 값의 크기 자체는 유의미성을 나타내지 않습니다. t 값의 유의성은 p-value를 통해 확인해야 합니다.

"df" 는 degree of freedom 으로 자유도를 나타냅니다.

결론적으로 t.test( )에서 귀무가설 및 대립가설의 채택여부는 p-value를 보고 결정하시면 됩니다.

 


4. Wilcoxon 부호순위 검정

(1) 부호검정 (sign test)

모집단의 중앙값에 대한 검정으로 관찰된 표본중에서 중앙값을 초과하는 것이 몇 개인지를 파악하는 것입니다.

(2) Wilcoxon 부호순위검정 (Wilcoxon signed rank test)

부호 검정은 위치만 파악할 뿐 크기를 고려하지 않는다. 이를 보완한 검정으로 작은 거리부터 순위를 매기고 왼쪽은 - 를, 오른쪽은 + 로 주고 모두 더한 값으로 검정한다.

 

▶ wilcox.test( )

wilcox.test(x, y = NULL,
            alternative = c("two.sided", "less", "greater"),
            mu = 0, paired = FALSE, exact = NULL,
            correct = TRUE, conf.int = FALSE, conf.level = 0.95, ...)

x, y : 비교하고자 하는 두 집단의 벡터 또는 수치형 데이터 프레임
alternative : 귀무가설 대안을 설정. "two.sided", "less", "greater" 각각 
             양측 검정, 단측 검정(좌측), 단측 검정(우측)을 의미
mu : 귀무가설의 중앙값, 기본값은 0
paired : 두 집단이 서로 대응되는 경우 TRUE로 지정, 기본값은 FALSE
exact : 부호 순위 검정 결과의 정확도를 결정. NULL이면 자동으로 결정.
correct : 분석 결과의 보정 여부를 결정. 기본값은 TRUE.
conf.int : 신뢰구간을 계산할 지 여부를 결정. 기본값은 FALSE.
conf.level : 신뢰구간의 신뢰수준을 결정. 기본값은 0.95입니다.

 

◈ 예제 : 통계학 관련학과 대학 정보 공시 취업률 자료

해당연도의 전체 대졸취업률은 54.5% 정도가 된다고 할 때 통계학 관련학과의 취업률 평균이 전체 취업률보다 높다고 할 수 있는가?

귀무가설 : 통계학 관련학과의 취업률 평균이 전체취업률보다 낮거나 같다.
대립가설 : 통계학 관련학과의 취업률 평균이 전체취업률보다 높다.

 

wilcox.test(employ, mu=54.5, alternative="greater")
    Wilcoxon signed rank test with continuity correction

data:  empl
V = 604, p-value = 0.02867
alternative hypothesis: true location is greater than 54.5

경고메시지(들): 
wilcox.test.default(empl, mu = 54.5, alternative = "greater")에서:
  tie가 있어 정확한 p값을 계산할 수 없습니다

 

p-value는 검정의 유의 확률로 유의 수준 0.05에서 0.05보다 작으므로 귀무가설을 기각할 수 있습니다.윌콕슨 부호 순위 검정 결과로, 모평균이 54.5보다 크다는 대립 가설 하에서 유의 수준 0.05에서 유의한 결과를 얻었다는 것을 의미합니다.
앞선 t.test( )와 같은 결과를 얻었습니다.