일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 확률
- 고정효과모형
- 회귀분석
- 글쓰기
- 추정
- JavaScript
- 산점도
- 분산분석
- r
- 통계학
- 혼합효과모형
- 변동분해
- 두 평균의 비교
- 이원배치 분산분석
- css
- 오블완
- 모평균에 대한 통계적추론
- 티스토리챌린지
- 인공지능
- 에세이
- 반복있음
- 정규분포
- 이항분포
- html
- 데이터 과학
- 변량효과모형
- 반복없음
- version 1
- 가설검정
- 경제학
- Today
- Total
생각 작업실 The atelier of thinking
70. 모비율에 대한 통계적 추론 I 본문
Chapter 70. 모비율에 대한 통계적 추론
통계적 추론은 추론 목적에 따라 크게 추정과 가설검정으로 나눌 수 있습니다.
통계적 추론은 일반적으로 모집단의 특성에 대한 정보를 표본으로부터 얻어내는 과정을 포함합니다. 특히, 모평균과 모분산은 통계적 추론에서 주로 다루어 지는 대상들 입니다. 이와 더불어 특정 범주형 변수의 비율을 추정 모비율 역시 통계적 추론에서 다루어집니다.
표본으로부터 얻은 통계량을 사용하여 모집단의 특성에 대한 가설을 검정하거나, 신뢰구간을 구하여 추정하는 등의 작업을 수행하여 통계적 추론을 실시합니다.
1. 모비율에 대한 통계적 추론
모비율에 대한 통계적 추론은 모집단에서 특정 범주형 변수의 비율을 추정하고 이에 대한 가설을 검정하는 것을 의미합니다. 이러한 추론은 주어진 표본을 사용하여 모비율에 대한 추정치를 계산하고, 이 추정치의 신뢰구간을 구하거나 가설을 검정하여 모비율이 특정 값과 같은지 여부를 판단합니다.
범주형 자료는 주로 빈도수나 백분율로 요약하여 분석하게 됩니다. 따라서, 수치형 자료와는 달리 모비율이 관심사항이 됩니다.
예를 들어, 어떤 제품의 불량률을 조사하고자 할 때, 랜덤하게 선택된 표본을 사용하여 제품의 불량률에 대한 추정치를 계산하고, 이 추정치의 신뢰구간을 구하여 모두 얼마나 불량 제품이 있는지에 대한 정보를 얻을 수 있습니다. 또한, 두 개 이상의 모비율을 비교하거나 특정 가설을 검정하여 제품의 품질 개선 여부 등을 평가할 수 있습니다.
이러한 통계적 추론은 모비율에 대한 결정을 더욱 확고하게 하고, 의사 결정을 지원하는 데 중요한 역할을 합니다.
모비율에 대한 통계적 추론은 범주형 데이터에서 사용되며, 모집단의 비율에 대한 추론을 수행하는 것을 말합니다.
주로 두 개의 범주를 가진 데이터에서 각 범주의 비율을 추론하고, 두 그룹 간의 비율 차이를 검정하는 데 사용됩니다.
이항분포는 범주형 데이터의 분포를 표현하는 확률분포로 사용됩니다.
표본의 크기가 크거나 비율이 근사적으로 정규분포를 따를 때 정규근사를 적용하여 추론을 수행할 수 있습니다.
(1) 확률표본
▶ 베르누이 확률표본
$$ X_1,X_2, ... , X_n \sim iid B(\theta) $$
이에 대한 성공횟수는 아래와 같습니다.
$$ X = X_1 + X_2 + ... + X_n $$
(2) 점추정
모수인 모비율에 대한 정보는 표본비율이 가장 많이 가지고 있으므로 직관적으로 표본비율을 사용합니다.
모수 $\theta$ ← 표본비율 $ P = \frac{X}{n} $
(3) 표본비율의 성질
$$ E(X_i) = \theta $$
$$ Var(X_i) = \theta(1 - \theta)$$
표본크기가 크면, 중심극한정리에 의해 정규분포에 근사합니다.
$$P \backsimeq \ N\ \left(\theta \ ,\ \frac{\theta \left(1-\theta \right)}{n}\right)\ \Rightarrow \ \ \frac{P-\theta }{\sqrt{\theta \left(1-\theta \right)/\ n}}\ \backsimeq \ N\left(0\ ,\ 1\right)$$
정규근사는 표본크기(n)과 모비율($\)에 영향을 받습니다. 표본크기가 클수록 모비율이 0.5에 가까울수록 정규근사가 잘 됩니다.
$$n\theta \ \ge 5\ ,\ n\left(1-\theta \right)\ \ge 5$$
(4) 중심축량
중심축량은 정규분포에 근사합니다.
$$ \frac{P-\theta}{\sqrt{\theta(1-\theta)/n}} \simeq N(0, 1) $$
2. 모비율의 구간 추정 - 표본크기가 클 때
모비율에 대한 구간추정은 정규분포를 이용하여 구할 수 있습니다.
모비율의 구간추정은 위 중심축량을 기준으로 신뢰구간을 정하게 됩니다.
유도과정을 살펴보면 아래와 같습니다.
$$ \frac{P-\theta}{\sqrt{\theta(1-\theta)/n}} \simeq N(0, 1) $$
$$ 1-\alpha \approx P \left( -z_{\alpha/2} <\frac{P-\theta}{\sqrt{\theta(1-\theta)/n}}< z_{\alpha/2}\right) $$
$$ = P \left( P-z_{\alpha/2}\sqrt{\theta(1-\theta)/n} < \theta < P+z_{\alpha/2}\sqrt{\theta(1-\theta)/n} \right) $$
$\rightarrow$ 표준오차에 모비율 ($\theta$)이 포함되어 있어서, 이를 해결하기 위한 여러가지 방법이 있습니다. 가장 간편한 방법은 모비율 대신에 표본비율을 적용시키게 됩니다.
따라서 신뢰구간은 아래와 같이 나타낼 수 있습니다.
$$ \left( P - z_{\alpha/2}\sqrt{P(1-P)/n}, P+z_{\alpha/2}\sqrt{P(1-P)/n} \right)$$
단, 전제조건은 $ n\theta \ge 5, n(1-\theta) \ge 5$ 일 때
3. 가설검정
가설검정의 절차를 살펴보면, 가설을 설정하고 검정통계량을 구하고 구한 검정통계량의 분포와 유의수준을 비교 검토후 기각 또는 채택의 결론을 내리게 됩니다.
(1) 가설 설정
귀무가설$(H_0)$ : 현상태에 대한 잠정적 가정
대립가설 $(H_1)$ : 우리가 알고 싶은 것
$$H_0:\ \theta=\theta _0\quad vs\quad H_1:\ \begin{cases}\theta>\theta\\\theta<\theta _0\\\theta \ne \theta _0\end{cases}$$
(2) 검정통계량 : 귀무가설하에서 표본의 비정상성을 결정하기 위해 사용되는 통계량
$$ Z_0 = \frac{P-\theta_0}{\sqrt{\theta_0(1-\theta_0)/n}} \simeq N(0, 1) $$
(3) 검정통계량의 분포와 유의수준을 비교 검토합니다.
유의수준을 $\alpha$ 라고 하면 기각역은 $\begin{cases}①(z_{\alpha} ,\infty )\\②(-\infty,\ z_{\alpha})\\③(-\infty,\ z_{-\alpha /2}),(z_{\alpha /2},\infty )\end{cases}$
(4) 결론
기각역(비정상영역) : 귀무가설 기각 (대립가설 채택)
채택역(정상영역) : 귀무가설 유지 (대립가설 기각)
'통계학 이야기' 카테고리의 다른 글
72. R 을 이용한 모비율에 대한 통계적 추론 (1) | 2024.06.13 |
---|---|
71. 모비율에 대한 통계적 추론 II (0) | 2024.06.12 |
69. R을 이용한 카이제곱분포 및 모분산 추정 (2) | 2024.06.10 |
68. 모분산에 대한 통계적 추론 (1) | 2024.06.09 |
67. R을 이용한 모평균에 대한 통계적 추론 (1) | 2024.06.08 |