생각 작업실 The atelier of thinking

66. 모평균에 대한 통계적 추론 III 본문

통계학 이야기

66. 모평균에 대한 통계적 추론 III

knowledge-seeker 2024. 6. 7. 15:12

Chapter 66. 모평균에 대한 통계적 추론 III


모수 추정을 위해서는 여러가지 표본을 수집하기 위해서 비용과 시간 등의 제약조건에 영향을 받습니다.
표본크기는 모수 추정의 정확도 및 신뢰도에 영향을 줍니다.
따라서 모수 추정을 위한 표본크기는 정확도와 신뢰도, 비용과 시간을 고려한 최적의 크기를 정해야 합니다.
여기서 신뢰도는 신뢰수준을 통하여 , 정확도는 오차범위로 나타낼 수 있습니다.

통계학 추론의 두 방법인 구간추정과 가설검정에 기반한 표본크기 결정방법에 대하여 알아보겠습니다.

 


 

1. 구간 추정에 기반한 표본크기 결정방법

 

앞서 구간추정에서 $\mu$ 에 대한 95% 신뢰구간은 아래 그림과 같이 나타냈습니다.

 

 

위 그림을 일반화하여 수식으로 표현하면,

 

$ 100(1-\alpha)%$ 신뢰수준에서 허용오차범위가 $ \pm \delta$

$$ P(|\bar{X} - \mu | < \delta) = 1 - \alpha $$

 

로 나타낼 수 있습니다.

 

정규확률표본인 경우 허용오차범위는 아래와 같습니다.

 

$$ \delta = z_\frac{\alpha}{2} \times \frac{\alpha}{\sqrt{n}}$$

 

위 식을 표본크기 $n$을 기준으로 정리하면,

 

$$ n = \left( \frac{z_{\alpha/2}\sigma}{\delta} \right)^2 $$

 

위 식에서 모표준편차 $\sigma$를 모를 때는 표본표준편차 S를 사용할 수 있습니다.

 

구간추정을 기반한 표본크기를 구하는 방법을 식으로 정리하면,

 

$ 100(1-\alpha)%$ 신뢰수준에서 허용오차범위가 $ \pm \delta$

$$ 표본크기 n = \left( \frac{z_{\alpha/2}\sigma}{\delta} \right)^2 $$

 

◈ 예제 : 과거자료에 따르면 표준편차가 $\sigma=5$(S=5)라고 할 때,
95% 신뢰수준에서 오차범위가 1.5를 넘지않는 표본크기를 구한다면?

 

95% 신뢰수준에서 허용오차범위가 $ \pm 1.5$

$$ P(|\bar{X} - \mu | < 1.5) = 0.95 $$

$$ n = \left( \frac{z_{\alpha/2}\sigma}{\delta} \right)^2 $$

$$ n = \left( \frac{1.96 \times 5}{1.5} \right)^2=42.68 $$

 

결과적으로 최소 표본크기는 43 입니다.

 


 

2. 가설 검정을 위한 표본크기 결정

 

(1) 가설 설정

 

앞서 모평균에 대한 가설 검정에서 가설 설정을 아래와 같이 표현하였습니다.

 

 $$ H_0 : \mu = \mu_0 \quad vs \quad H_1: \begin{cases} \mu > \mu_0 \\ \mu < \mu_0 \\ \mu \not= \mu_0 \end{cases}$$

 

위 표현을 아래와 같이 유효효과($\delta$)로 표현할 수 있습니다.

 

$$ H_0: \mu = \mu_0 \quad vs \quad  H_1: \mu = \mu_1 = \mu_0+\delta$$

 

유효효과란 어떤 처리나 조건이 효과가 있는지를 나타내는 것을 말합니다.
대립가설은 귀무가설에 유효효과가 더해진 것으로 표현하는 것은 처리나 조건 간에 유효한 차이나 효과가 있다는 것을 나타냅니다.

(2) 검정 통계량

 

$$Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim N(0, 1)$$

 

표준화를 하면 검정통계량은 평균이 0, 분산이 1인 정규분포를 따르게 됩니다.

 

(3) 유의수준

 

유의수준은 제 1종 오류로 귀무가설이 참일 때, 대립가설을 채택하는 경우입니다. 이를 조건부 확률로 표현하면, 아래와 같습니다.

 

$$P\left(\frac{\bar{X} - \mu}{\sigma / \sqrt{n}}>z_\alpha|H_0\right) = \alpha $$

 

(4) 검정력

검정력은 1에서 제2종의 오류, 즉 대립가설이 참임에도 귀무가설을 채택한 경우를 뺀 값을 말합니다.

 

$$P\left(\frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}}>z_\alpha|H_1\right) = 1-\beta $$

 

$\beta$는 대립가설이 참인데도 귀무가설을 선택한 경우를 말합니다.

검정력은 $1-\beta$ 로 나타냅니다.

 

여기서 대립가설이 맞다면, 귀무가설의 $\mu_0$가 아니라 대립가설의 $\mu_1$을 기준으로 한 검정통계량 $Z_1$은 표준 정규 분포를 따릅니다.

 

$$Z_1 = \frac{\bar{X} - \mu_1}{\sigma / \sqrt{n}} \sim N(0, 1)$$

 

따라서, 이 때의 검정력은 아래와 같이 구할 수 있습니다.

 

$$1-\beta=P\left(\frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}}>z_\alpha|H_1\right) $$

$$1-\beta=P\left(\bar{X} > z_\alpha\sigma / \sqrt{n} +\mu_0 |H_1\right) $$

 

위 식을 $\mu_1$을 기준으로 표준화하면,

 

$$1-\beta=P\left(\frac{\bar{X} - \mu_1}{\sigma / \sqrt{n}}>(\frac{z_\alpha\sigma/\sqrt{n}+\mu_0-\mu_1 }{ \sigma/\sqrt{n}})  |H_1\right) $$

 

위 식을 $z_1$으로 나타내면,

$$ 1-\beta = P\left( z_1 > z_\alpha -( \frac{\mu_1-\mu_0}{\sigma/\sqrt{n}})|H_1 \right) $$

 

$$ 1-\beta =1- P\left( z_1 < z_\alpha -( \frac{\mu_1-\mu_0}{\sigma/\sqrt{n}})\right) $$

 

(5) 가설검정을 위한 표본크기

 

표준 정규분포는 아래와 같은 성질을 가지고 있습니다.

 

$$P(z \le -z_\beta) = P(z \ge z_\beta) = 1 - P(z \le z_\beta) = P(z \le z_{1-\beta}) $$

 

따라서, 분위수는 아래와 같이 나타낼 수 있습니다.

 

$$\left( \frac{\mu_1 - \mu_0}{\sigma/\sqrt{n}} \right) = z_{1-\beta} = -z_\beta $$


위 식을 표본크기$n$ 을 기준으로 정리하면,

 

$$z_\alpha - \left( \frac{\mu_1 - \mu_0}{\sigma/\sqrt{n}} \right) = z_\alpha + z_\beta $$

$$ \sqrt{n} = \frac{\sigma(z-\alpha +z_\beta}{\mu_1 - \mu_0} $$

$$ n = \frac{\alpha^2(z_\alpha + z_\beta)^2}{(\mu_1 - \mu_0)^2}$$

 

유효효과$(\delta)$는$( \mu_1 - \mu_0) $이므로 이를 정리하여 표본크기는 아래와 같이 구할 수 있습니다.

 

$$ n = \frac{\sigma^2(z_\alpha + z_\beta)^2}{\delta^2}$$

 


◈ 예제 : 신약개발 임상실험

가설검정을 위한 표본크기를 구하는 방법은 신약 개발을 위한 임상실험을 실시할 때 최소한 몇 명이상을 실시해야 하는가에 활용됩니다.

임상실험 단계는 아래와 같습니다.


(1) 1상(Phase 1) : 약의 흡수, 대사, 배설 등의 내약성(독성)
(2) 2상(Phase 2) : 용량선정
(3) 3상(Phase 3) : 유효성 확인


일반적으로 5% 유의수준에서 80%이상의 검정력하에서 시험을 진행
유의수준(제1종 오류) : 약이 효과가 없는데 있다고 판정하는 경우
검정력(1-제2종 오류) : 약이 효과가 있는데 없다고 판정하는 경우

▶ 새로운 진통제에 대한 예비연구에서 복용 전과 후의 VAS 차이는 평균 5이고 표준편차는 10 이었다고 합니다.
5% 유의수준과 80% 검정력으로 유효성 평가를 하려면 몇 명의 피험자를 대상으로 임상시험을 진행해야 할까요?

 

유효효과$(\delta)$는 5, 표준편차$()$는 10

$$ n = \frac{\sigma^2(z_\alpha + z_\beta)^2}{\delta^2}$$

 

임상실험에는 $z_\alpha$ 대신에 $z_{\alpha/2}$ 를 사용한다고 합니다. 유의수준을 보다 엄격하게 적용합니다.

$$ n = \frac{\sigma^2(z_{\alpha/2} + z_\beta)^2}{\delta^2}$$

$$ \delta=5, \alpha = 10, z_{\alhpa/2} = z_0.025, z_\beta = z_0.02 $$

$$ n = \frac{10^2(1.96 +0.842)^2}{5^2} = 31.4 $$

위 결과로 최소 32명이 필요합니다.
다만, 임상실험 탈락율은 통상 20%로 보고 있어 탈락율을 감안하면,

 

$$ \frac{32}{(1-0.2)} = 40 $$

 

피실험자는 최소 40명이 필요합니다.