생각 작업실 The atelier of thinking

105. 회귀 계수에 대한 통계적 추론 본문

통계학 이야기

105. 회귀 계수에 대한 통계적 추론

knowledge-seeker 2024. 8. 27. 18:15

Chapter 105. 회귀 계수에 대한 통계적 추론

 

앞선 회차에서 회귀분석에서의 통계적 추론에 대해서 알아봤습니다.

 

2024.08.22 - [통계학 이야기] - 104. 회귀분석에서의 통계적 추론

 

104. 회귀분석에서의 통계적 추론

Chapter 104. 회귀분석에서의 통계적 추론 1. 회귀분석에서의 통계적 추론 회귀분석의 핵심은 "변수간의 관계"를 나타내는 것입니다. 앞서 단순선형회귀모형으로 선형 회귀식을 구해봤습니다. 선

thinking-atelier.tistory.com

 

 

회귀분석에서의 통계적 추론이란 주로 회귀 모델의 기울기와 절편 (회귀 계수) 및 잔차에 대하여 추론하는 것입니다. 

 

이번 회차에서는 회귀분석에서의 통계적 추론 중에서 회귀 계수에 대해서 알아보고자 합니다.

 

회귀 계수란 기울기와 절편을 말합니다. 

 

단순선형 회귀모형은 아래와 같습니다.

 

$$Y_i = \beta_0 + \beta_1 x_i + \epsilon_i $$

$$\epsilon_i \sim iid N(0,\sigma^2) $$


위 회귀분석 모형에서 기울기 $\beta_1$과 절편 $\beta_0$에 대한 통계적 추론을 알아보고자 합니다.

 

기울기는 독립변수의 변화량에 따른 종속변수의 변화량을 나타내며, 절편은 독립변수가 0일 때의 종속변수의 값입니다. 따라서 회귀 계수는 주어진 독립변수와 종속변수 사이의 관계를 설명하는 데 중요한 역할을 합니다.

 


 

1. 기울기에 대한 추론

 

기울기는 독립변수의 변화량에 따른 종속변수의 변화량을 나타냅니다.

 

최소제곱법을 사용하여 구한 회귀모형의 기울기는 아래와 같습니다.

 

 

 

 

 

추정값 : $\hat{\beta_1} = S_{xy}/S_{xx}$

 

추정량 : $\hat{\beta_1} = S_{xY}/S_{xx}$

 

 

 

 

(1) 기울기 추정량의 통계적 성질

 

기울기의 추정량을 식으로 나타내면 아래와 같습니다.

 

$$\hat{\beta_1} = S_{xY} / S_{xx}$$

$$\hat{\beta_1} = \frac{\sum(x_i-\bar{x})(Y_i-\bar{Y})}{S_{xx}} = \frac{\sum(x_i-\bar{x})Y_i}{S_{xx}}$$

 

기울기의 추정량은 종속변수 $Y_i$ 들의 선형결합임을 알 수 있습니다.

 

 

 

$Y_i \sim N(\beta_0+\beta_1x_i, \sigma^2)$

 

 


$Y_i$ 가 정규분포를 따르기 때문에 기울기의 추정량 역시 정규분포를 따른다고 할 수 있습니다.

기울기의 추정량의 기대값과 분산은 아래와 같습니다.

 

$$ E(\hat{\beta_1}) = \frac{1}{S_{xx}} \sum (x_i - \bar{x}) E(Y_i)$$

$$ = \frac{1}{S_{xx}} \sum (x_i - \bar{x})(\beta_0 - \beta_1 x_i) = \beta_1$$

$$Var(\hat{\beta_1}) = \frac{1}{S_{xx}^2} \sum (x_i - \bar{x})^2 Var(Y_i) = \frac{\sigma^2}{S_{xx}}$$

 

 

(2) 중심축량

 

따라서, 기울기의 추정량은 아래와 같은 정규분포를 따릅니다.

 

$$\hat{\beta_1} = S_{xY} / S_{xx} \sim N(\beta_1, \sigma^2/S_{xx})$$


표준정규분포로 변환하기 위해서는 표준화가 필요합니다.

 

$$ \frac{\hat{\beta_1} - \beta_1}{ \sigma / \sqrt{S_{xx}}}$$


$\sigma$를 알 수 없기 때문에 MSE를 대신 사용합니다.
따라서, 기울기 추정량의 중심축량은 아래와 같습니다.

 

$$ \frac{\hat{\beta_1} - \beta_1}{\sqrt{MSE/S_{xx}}} \sim t_{n-2}$$


자유도 n-2 인 t-분포를 따릅니다.

 

(3) 구간추정

 

$100(1 - \alpha )%$ 신뢰구간은 아래와 같이 구할 수 있습니다.

 

$$P \left( -t_{\alpha/2, n-2} \leq \frac{\hat{\beta_1}-\beta_1}{\sqrt{MSE/S_{xx}}} \leq t_{\alpha/2, n-2} \right) = 1 - \alpha $$


$\beta_1$의 신뢰구간은 아래와 같이 정리할 수 있습니다.

 

$$P(\hat{\beta_1} - t_{\alpha/2, n-2} \sqrt{MSE/S_{xx}} \leq \beta_1 \leq \hat{\beta_1}+t_{\alpha/2, n-2} \sqrt{MSE/S_{xx}})$$

 

 

(4) 가설검정

 

▶ 가설설정

 

$$H_0 : \beta_1 = \beta_1^* \quad vs \quad H_1 : \beta_1 \not= \beta_1^* ( > , < 가능)$$


설명변수가 반응변수에 영향을 주는지 여부를 $\beta_1 = 0$ 인지 아닌지로 확인할 수 있습니다.

▶ 검정통계량

 

$$ T_0 = \frac{\hat{\beta_1} - \beta_1^*}{ \sqrt{MSE/S_{xx}}} \sim t_{\alpha/2, n-2}$$


▶ 기각역

 

$$ |T_0| \ge t_{\alpha/2, n-2} $$


검정통계량이 기각역에 속하는지 여부에 따라 귀무가설을 채택할 것인지 판단합니다.

 


2. 절편에 대한 추론

 

(1) 절편의 역할

 

▶ 설명변수(독립변수) $x=0$ 일 때의 반응변수(종속변수) $y$의 기대값

 

$\beta_0 : x = 0$ 일 때, $E(Y)$의 값


▶최소제곱법 추정의 추정과정

절편이 없는 모형에서의 잔차합은 0이 되지 않을 수 있습니다.

 

$$ \frac{\partial D}{\partial b_0} = -2 \sum (y_i - b_0 - b_1x_i) = 0 $$

$\beta_0$가 없는 모형에서의 잔차합은 0 이 되지 않을 수 있다.

$\beta_0$의 포함여부 $(\beta_0 = 0)$에 대한 추론은 일반적으로 하지 않음.

 

절편에 대한 추론은 일반적으로 하지 않는다.

▶ 절편은 설명변수(독립변수)가 0 일 때의 상황이 중요한 경우에만 해석합니다.

 

(2) 절편 추정량의 통계적 성질

 

$$ \hat{\beta_0} = \bar{Y} - \hat{\beta_1}\bar{x} \impliedby \bar{Y} = \hat{\beta_0} + \hat{\beta_1}\bar{x}$$

$$ \hat{\beta_0} = \bar{Y} - \frac{S_{xY}}{S_{xx}} = \sum \left( \frac{1}{n} - \frac{(x_i - \bar{x}) \bar{x}}{S_{xx}} \right) Y_i$$

 

절편의 추정량의 Yi 들의 선형결합임을 알 수 있습니다.

 

$$Y_i \sim N(\beta_0+\beta_1x_i, \sigma^2)$$


Yi 가 정규분포를 따르기 때문에 절편의 추정량 역시 정규분포를 따른다고 할 수 있습니다.

절편의 추정량의 기대값과 분산은 아래와 같습니다.

 

$$ E(\hat{\beta_0}) = \beta_0 $$

$$ Var(\hat{\beta_0}) = \sigma^2 \left( \frac{1}{n} - \frac{\bar{x^2}}{S_{xx}} \right)$$

 

(3) 중심축량

 

따라서, 절편의 추정량은 아래와 같은 정규분포를 따릅니다.

 

$$ \hat{\beta_0} \sim N \left( \beta_0, \sigma^2 \left( \frac{1}{n} - \frac{\bar{x^2}}{S_{xx}} \right) \right)$$


표준정규분포로 변환하기 위해서는 표준화가 필요합니다.
$\sigma$ 를 알 수 없기 때문에 MSE를 대신 사용합니다.
따라서, 절편 추정량의 중심축량은 아래와 같습니다.

 

$$\frac{\hat{\beta_0}- \beta_0}{\sqrt{MSE}\sqrt{\frac{1}{n}-\frac{\bar{x^2}}{S_{xx}}}} \sim t_{n-2}$$


자유도 n-2 인 t-분포를 따릅니다.

 

(4) 구간추정

 

절편의 신뢰구간은 아래와 같습니다.

 

$$ \hat{\beta_0} \pm t_{\alpha/2 , n-2} \sqrt{MSE}\sqrt{\frac{1}{n}-\frac{\bar{x^2}}{S_{xx}}}$$