일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- css
- 확률
- version 1
- 산점도
- 정규분포
- 반복없음
- 경제학
- r
- 이원배치 분산분석
- 인공지능
- 티스토리챌린지
- 혼합효과모형
- 변동분해
- 데이터 과학
- 두 평균의 비교
- html
- 가설검정
- 회귀분석
- 추정
- 에세이
- 오블완
- 모평균에 대한 통계적추론
- 분산분석
- 반복있음
- 통계학
- 고정효과모형
- 글쓰기
- 변량효과모형
- 이항분포
- JavaScript
- Today
- Total
생각 작업실 The atelier of thinking
105. 회귀 계수에 대한 통계적 추론 본문
Chapter 105. 회귀 계수에 대한 통계적 추론
앞선 회차에서 회귀분석에서의 통계적 추론에 대해서 알아봤습니다.
2024.08.22 - [통계학 이야기] - 104. 회귀분석에서의 통계적 추론
회귀분석에서의 통계적 추론이란 주로 회귀 모델의 기울기와 절편 (회귀 계수) 및 잔차에 대하여 추론하는 것입니다.
이번 회차에서는 회귀분석에서의 통계적 추론 중에서 회귀 계수에 대해서 알아보고자 합니다.
회귀 계수란 기울기와 절편을 말합니다.
단순선형 회귀모형은 아래와 같습니다.
$$Y_i = \beta_0 + \beta_1 x_i + \epsilon_i $$
$$\epsilon_i \sim iid N(0,\sigma^2) $$
위 회귀분석 모형에서 기울기 $\beta_1$과 절편 $\beta_0$에 대한 통계적 추론을 알아보고자 합니다.
기울기는 독립변수의 변화량에 따른 종속변수의 변화량을 나타내며, 절편은 독립변수가 0일 때의 종속변수의 값입니다. 따라서 회귀 계수는 주어진 독립변수와 종속변수 사이의 관계를 설명하는 데 중요한 역할을 합니다.
1. 기울기에 대한 추론
기울기는 독립변수의 변화량에 따른 종속변수의 변화량을 나타냅니다.
최소제곱법을 사용하여 구한 회귀모형의 기울기는 아래와 같습니다.
추정값 : $\hat{\beta_1} = S_{xy}/S_{xx}$
추정량 : $\hat{\beta_1} = S_{xY}/S_{xx}$
(1) 기울기 추정량의 통계적 성질
기울기의 추정량을 식으로 나타내면 아래와 같습니다.
$$\hat{\beta_1} = S_{xY} / S_{xx}$$
$$\hat{\beta_1} = \frac{\sum(x_i-\bar{x})(Y_i-\bar{Y})}{S_{xx}} = \frac{\sum(x_i-\bar{x})Y_i}{S_{xx}}$$
기울기의 추정량은 종속변수 $Y_i$ 들의 선형결합임을 알 수 있습니다.
$Y_i \sim N(\beta_0+\beta_1x_i, \sigma^2)$
$Y_i$ 가 정규분포를 따르기 때문에 기울기의 추정량 역시 정규분포를 따른다고 할 수 있습니다.
기울기의 추정량의 기대값과 분산은 아래와 같습니다.
$$ E(\hat{\beta_1}) = \frac{1}{S_{xx}} \sum (x_i - \bar{x}) E(Y_i)$$
$$ = \frac{1}{S_{xx}} \sum (x_i - \bar{x})(\beta_0 - \beta_1 x_i) = \beta_1$$
$$Var(\hat{\beta_1}) = \frac{1}{S_{xx}^2} \sum (x_i - \bar{x})^2 Var(Y_i) = \frac{\sigma^2}{S_{xx}}$$
(2) 중심축량
따라서, 기울기의 추정량은 아래와 같은 정규분포를 따릅니다.
$$\hat{\beta_1} = S_{xY} / S_{xx} \sim N(\beta_1, \sigma^2/S_{xx})$$
표준정규분포로 변환하기 위해서는 표준화가 필요합니다.
$$ \frac{\hat{\beta_1} - \beta_1}{ \sigma / \sqrt{S_{xx}}}$$
$\sigma$를 알 수 없기 때문에 MSE를 대신 사용합니다.
따라서, 기울기 추정량의 중심축량은 아래와 같습니다.
$$ \frac{\hat{\beta_1} - \beta_1}{\sqrt{MSE/S_{xx}}} \sim t_{n-2}$$
자유도 n-2 인 t-분포를 따릅니다.
(3) 구간추정
$100(1 - \alpha )%$ 신뢰구간은 아래와 같이 구할 수 있습니다.
$$P \left( -t_{\alpha/2, n-2} \leq \frac{\hat{\beta_1}-\beta_1}{\sqrt{MSE/S_{xx}}} \leq t_{\alpha/2, n-2} \right) = 1 - \alpha $$
$\beta_1$의 신뢰구간은 아래와 같이 정리할 수 있습니다.
$$P(\hat{\beta_1} - t_{\alpha/2, n-2} \sqrt{MSE/S_{xx}} \leq \beta_1 \leq \hat{\beta_1}+t_{\alpha/2, n-2} \sqrt{MSE/S_{xx}})$$
(4) 가설검정
▶ 가설설정
$$H_0 : \beta_1 = \beta_1^* \quad vs \quad H_1 : \beta_1 \not= \beta_1^* ( > , < 가능)$$
설명변수가 반응변수에 영향을 주는지 여부를 $\beta_1 = 0$ 인지 아닌지로 확인할 수 있습니다.
▶ 검정통계량
$$ T_0 = \frac{\hat{\beta_1} - \beta_1^*}{ \sqrt{MSE/S_{xx}}} \sim t_{\alpha/2, n-2}$$
▶ 기각역
$$ |T_0| \ge t_{\alpha/2, n-2} $$
검정통계량이 기각역에 속하는지 여부에 따라 귀무가설을 채택할 것인지 판단합니다.
2. 절편에 대한 추론
(1) 절편의 역할
▶ 설명변수(독립변수) $x=0$ 일 때의 반응변수(종속변수) $y$의 기대값
$\beta_0 : x = 0$ 일 때, $E(Y)$의 값
▶최소제곱법 추정의 추정과정
절편이 없는 모형에서의 잔차합은 0이 되지 않을 수 있습니다.
$$ \frac{\partial D}{\partial b_0} = -2 \sum (y_i - b_0 - b_1x_i) = 0 $$
$\beta_0$가 없는 모형에서의 잔차합은 0 이 되지 않을 수 있다.
$\beta_0$의 포함여부 $(\beta_0 = 0)$에 대한 추론은 일반적으로 하지 않음.
절편에 대한 추론은 일반적으로 하지 않는다.
▶ 절편은 설명변수(독립변수)가 0 일 때의 상황이 중요한 경우에만 해석합니다.
(2) 절편 추정량의 통계적 성질
$$ \hat{\beta_0} = \bar{Y} - \hat{\beta_1}\bar{x} \impliedby \bar{Y} = \hat{\beta_0} + \hat{\beta_1}\bar{x}$$
$$ \hat{\beta_0} = \bar{Y} - \frac{S_{xY}}{S_{xx}} = \sum \left( \frac{1}{n} - \frac{(x_i - \bar{x}) \bar{x}}{S_{xx}} \right) Y_i$$
절편의 추정량의 Yi 들의 선형결합임을 알 수 있습니다.
$$Y_i \sim N(\beta_0+\beta_1x_i, \sigma^2)$$
Yi 가 정규분포를 따르기 때문에 절편의 추정량 역시 정규분포를 따른다고 할 수 있습니다.
절편의 추정량의 기대값과 분산은 아래와 같습니다.
$$ E(\hat{\beta_0}) = \beta_0 $$
$$ Var(\hat{\beta_0}) = \sigma^2 \left( \frac{1}{n} - \frac{\bar{x^2}}{S_{xx}} \right)$$
(3) 중심축량
따라서, 절편의 추정량은 아래와 같은 정규분포를 따릅니다.
$$ \hat{\beta_0} \sim N \left( \beta_0, \sigma^2 \left( \frac{1}{n} - \frac{\bar{x^2}}{S_{xx}} \right) \right)$$
표준정규분포로 변환하기 위해서는 표준화가 필요합니다.
$\sigma$ 를 알 수 없기 때문에 MSE를 대신 사용합니다.
따라서, 절편 추정량의 중심축량은 아래와 같습니다.
$$\frac{\hat{\beta_0}- \beta_0}{\sqrt{MSE}\sqrt{\frac{1}{n}-\frac{\bar{x^2}}{S_{xx}}}} \sim t_{n-2}$$
자유도 n-2 인 t-분포를 따릅니다.
(4) 구간추정
절편의 신뢰구간은 아래와 같습니다.
$$ \hat{\beta_0} \pm t_{\alpha/2 , n-2} \sqrt{MSE}\sqrt{\frac{1}{n}-\frac{\bar{x^2}}{S_{xx}}}$$
'통계학 이야기' 카테고리의 다른 글
107. R을 이용한 회귀분석 예측값 구하기 (0) | 2024.11.28 |
---|---|
106. 회귀분석 - 예측값과 관측값 (0) | 2024.11.20 |
104. 회귀분석에서의 통계적 추론 (0) | 2024.08.22 |
103. R을 이용한 회귀분석 (0) | 2024.08.06 |
102. 단순선형 회귀모형 (1) | 2024.07.26 |