생각 작업실 The atelier of thinking

64. 모평균에 대한 통계적 추론 I 본문

통계학 이야기

64. 모평균에 대한 통계적 추론 I

knowledge-seeker 2024. 1. 16. 12:33

Chapter 64. 모평균에 대한 통계적 추론 I

 

통계적 추론은 추론 목적에 따라 크기 추정과 가설검정으로 나눌 수 있습니다.

 

 

  통계적 추론은 일반적으로 모집단의 특성에 대한 정보를 표본으로부터 얻어내는 과정을 포함합니다. 특히, 모평균과 모분산은 통계적 추론에서 주로 다루어 지는 대상 중 하나입니다.

  표본으로부터 얻은 통계량을 사용하여 모집단의 특성에 대한 가설을 검정하거나, 신뢰구간을 구하여 추정하는 등의 작업을 수행하여 통계적 추론을 실시합니다.

 

1. 모평균에 대한 통계적 추론

 

  모평균에 대한 통계적 추론은 표본을 통해 모집단의 평균에 대한 정보를 얻고자 하는 과정입니다. 일반적으로, 통계적 추론은 모집단의 평균에 대한 추정과 가설 검정 두 가지로 나눌 수 있습니다.

 

 (1) 모평균에 대한 추정

 

    표본을 통해 모집단의 평균을 추정하는 것을 말합니다.

    대표적으로 표본평균을 사용하여 모평균을 추정하는 방법이 있습니다.

추정량인 표본평균을 이용하여 모평균의 구간추정을 수행할 수 있습니다. 이를 통해 모평균이 어느 범위에 있을 것으로 예측할 수 있습니다.

 

 (2) 모평균에 대한 가설검정

 

모집단의 평균에 대한 가설을 세우고, 표본을 통해 가설을 검정하는 것입니다.

가설 검정에서는 주로 귀무가설과 대립가설을 설정하고, 표본을 분석하여 귀무가설을 기각할 지 채택할 지를 결정합니다.

일반적으로 가설 검정에서는 유의수준을 설정하고, p-value를 계산하여 유의 수준과 비교하여 결정합니다.

 

모평균의 통계적 추론은 표본 데이터를 통해 모집단의 평균에 대한 정보를 추론하는 중요한 방법입니다. 이를 통해 모집단에 대한 정보를 얻고, 의사결정이나 추론에 활용할 수 있다.


 

2. 모집단 가정

 

기본적으로 통계학 추론을 할 때에는 모집단에 대한 가정이 있는지 없는지 또는 그 가정이 만족하는지 안하는지에 대해서 체크해야 합니다.

 

크게 모집단이 정규분포 형태를 가지는 지 혹은 정규분포라고 볼 수 없는지로 나누어 가정합니다.

모집단의 가정에 따라 추론을 하는 방법을 달리해야 합니다.

 

모집단이 정규성 가정의 적절한지 확인이 필요할 때 사용하는 방법이 Shapiro-Wilk Test, Jacque-Bera Test 등이 있습니다. 이는 R 등의 통계프로그램을 통해 확인해 볼 수 있습니다.

 

이번회차에서는 모집단이 정규분포라 가정하고 통계적 추론 과정을 살펴보겠습니다.

 

(1) 확률표본

 

   정규 모집단에서 추출한 확률표본은 정규분포를 나타냅니다.

$$ X_1,X_2,...,X_n \overset{\mathrm{iid}}{\sim} N(\mu , \sigma^2) $$

 

 이를 표준화를 하면 표준 정규분포를 나타냅니다.

$$ X_i = \mu + \epsilon_i , \epsilon_i \overset{\mathrm{iid}}{\sim} N( 0, \sigma^2)$$

 

(2) 점추정

 

 모수인 모평균에 대한 정보는 표본평균이 가장 많이 가지고 있으므로 직관적으로 표본평균을 사용합니다.

 

 $$ 모수 : \mu \Leftarrow \bar{X} : 표본평균 $$

 

(3) 표본평균의 성질

$$ E(\bar{X}) = \mu $$

$$ Var(\bar{X}) = \frac{\sigma^2}{n} $$

$$ SD(\bar{X}) = \frac{\sigma}{\sqrt{n}} $$

이 때 표본평균의 표준편차는 표준오차(Standard Error, SE)라고 합니다. 이 확률표분은 표집분포이기 때문에 표준오차라고 합니다.

 

이 때 $\bar{X}$의 확률분포는,

$$ \bar{X} \sim N(\mu, \frac{\sigma^2}{n}) $$

표준화를 하면,

$$Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim N(0, 1)$$

하지만, 모집단의 분산($\sigma^2$)과 표준편차($\sigma$)는 모르는 경우가 많습니다.

따라서, 모표준편차 대신에 표본표준편차(S)를 사용하게 됩니다.

 

(4) T 분포

 

2023.12.15 - [통계학 이야기] - 58. T 분포(T - Distribution) - 연속확률분포

 

58. T 분포(T - Distribution) - 연속확률분포

Chapter 58. T 분포(T-Distribution) 1. T 분포의 유래 및 원리 T-분포는 student T-분포의 줄임말로 맥주회사 기네스사에 일하던 월리엄 고셋( William Sealy Gosset )이 1908년에 제안하였는데 회사의 방침에 따라

thinking-atelier.tistory.com

 

앞서 T분포에서 모집단의 표준편차 대시 표본표준편차를 이용하여 표준화를 하면,

$$ T = \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t_{n-1} $$

와 같이 나타낼 수 있으며, 확률밀도함수는

$t_{\nu}$ : 자유도가 $\nu$인 t-분포

$$ f(x) = \frac{\varGamma((\nu + 1) /2 )}{\varGamma(\nu/2)\sqrt{\nu \pi} (1+x^2/\nu)^{(\nu+1)/2} }$$

임을 살펴봤습니다.

 

따라서, 표본표준편차를 이용한 중심축량은 아래와 같이 나타낼 수 있습니다.

 

$$ X_1,X_2,...,X_n \overset{\mathrm{iid}}{\sim} N(\mu , \sigma^2) $$

$$ T = \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t_{n-1} $$


3. 정규분포에서의 구간추정

 

모평균에 대한 구간 추정은 T 분포를 이용하여 구할 수 있습니다.

 

중심축량은 표본 평균과 표본 표준편차를 이용하여 아래와 같이 나타냅니다.

$$ T = \frac{\bar{X} - \mu}{S/\sqrt{n}} $$

 

모평균의 구간추정은 이 중심축량을 기준으로 신뢰구간을 정하게 됩니다.

 

유도과정을 살펴보면 아래와 같습니다.

 

$t_{\alpha,\nu}$: 자유도가 $\nu$인 t-분포의 $(1-\alpha)$ 분위수

$$ 1-\alpha = P(-t_{\alpha/2,n-1} \leq T \leq t_{\alpha/2,n-1})$$

$$  = P(-t_{\alpha/2,n-1} \leq \frac{\bar{X}-\mu}{S/\sqrt{n}} \leq t_{\alpha/2,n-1})$$

$$  = P(\bar{X}-t_{\alpha/2,n-1}S/\sqrt{n} \leq \mu \leq \bar{X}+ t_{\alpha/2,n-1}S/\sqrt{n})$$

 

따라서, $100(1-\alpha)%$ 신뢰구간은 아래와 같이 나타냅니다.

$$  (\bar{X}-t_{\alpha/2,n-1}S/\sqrt{n} ,  \bar{X}+ t_{\alpha/2,n-1}S/\sqrt{n})$$

 


4. 가설검정

 

가설검정의 절차를 살펴보면, 가설을 설정하고 검정통계량을 구하고 구한 검정통계량의 분포와 유의수준을 비교 검토후 기각 또는 채택의 결론을 내리게 됩니다. 

 

(1) 가설 설정

      귀무가설($H_0$) : 현상태에 대한 잠정적 가정

      대립가설($H_1$): 우리가 알고 싶은 것

 

 $$ H_0 : \mu = \mu_0 \quad vs \quad H_1: \begin{cases} \mu > \mu_0 \\ \mu < \mu_0 \\ \mu \not= \mu_0 \end{cases}$$

 

 (2) 검정통계량 : 귀무가설하에서 표본의 비정상성을 결정하기 위해 사용되는 통계량

 

$$ T_0 = \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t_{n-1} $$

 

 (3) 검정통계량의 분포와 유의수준을 비교 검토합니다.

    유의수준을 $\alpha$라고 하면 기각역 $ \begin{cases} ① [t_{\alpha,n-1},\infty ) \\ ② (-\infty, -t_{\alpha,n-1}] \\ ③(-\infty,-t_{\alpha/2,n-1}],[t_{\alpha/2,n-1},\infty) \end{cases} $

 

 (4) 결론

 

     기각역(비정상영역)  : 귀무가설 기각 (대립가설 채택)

     채택역(정상영역)      : 귀무가설 유지 (대립가설 기각)