생각 작업실 The atelier of thinking

102. 단순선형 회귀모형 본문

통계학 이야기

102. 단순선형 회귀모형

knowledge-seeker 2024. 7. 26. 17:18

Chapter 102. 단순선형 회귀모형(Simple Lienar Regression Model)

 

1. 단순선형 회귀모형(Simple Lienar Regression Model)

 

(1) 정의

 

단순선형 회귀모형이란 설명변수(독립변수)가 하나인 회귀모형을 말합니다.

 

$$ Y_i = \beta_0 + \beta_1 x_i + \epsilon_i $$

$$ \epsilon_i \sim iid N(0, \sigma^2)$$


설명변수(독립변수) x는 조절 가능한 상수로 가정합니다.
예를들어, 광고비(x)에 따른 판매량(Y)의 관계에서 광고비는 회사에서 결정 가능한 상수로 가정합니다. 또한, 일조량(x)에 따른 수확량(Y)의 관계에서 조정할 수 없는 일조량은 관측된 값으로 주어진 값으로 처리하여 상수로 가정할 수 있습니다.

설명변수가 여러 개인 경우는 (다)중회귀모형 (multiple regression model)이라 합니다.

 

(2) 단순선형 회귀모형의 모수 추정

 

단순선형 회귀모형의 모수는 기울기와 절편입니다.

 

$$ Y_i = \beta_0 + \beta_1 x_i + \epsilon_i $$

$$ \epsilon_i \sim iid N(0, \sigma^2)$$


절편$(\beta_0)$은 설명변수(독립변수) x 가 0일 때, 반응변수(종속변수) Y의 값을 말합니다.
기울기$(\beta_1)$는 x(설명변수)를 한 단위 증가시킬 때 Y(반응변수)의 평균증가량를 말합니다.
기울기 $(\beta_1)$ 가 0이면 x가 Y에 영향을 주지 않는다는 것을 의미합니다.
$\epsilon$ 는 오차항(error term)으로, 모델로 설명하지 못하는 다양한 요인들로 인해 발생하는 잔차를 나타냅니다.

기울기,절편,오차항을 그래프로 표현하면 아래와 같습니다.

 

$$ Y_i = \beta_0 + \beta_1 x_i + \epsilon_i $$

$$ \epsilon_i \sim iid N(0, \sigma^2)$$

 

$$\implies  Y_i  \sim N(\beta_0+\beta_1 x_i, \sigma^2) $$

 



단순회귀모형은 미지의 모수 절편 $(\beta_0)$ 과 기울기 $(\beta_1)$ 를 추정하는 것입니다.
따라서, 모수로서의 기울기와 절편은 모델을 통해 독립변수와 종속변수 간의 선형 관계를 특정짓는데 사용됩니다.

 


 

2. 최소제곱법(Least Squares Method)

 

그림과 같이 관측값이 나왔다고 했을 때 이 관측값들을 표현할 수 있는 최적화 된 직선을 어떻게 찾을수 있을까?

 

(1) 모수추정

 

위 산점도에서 단순선형 회귀모형의 기울기와 절편은 아래와 같이 추정할 수 있습니다.

 



① 은 임의의 직선으로 아래와 같이 표현할 수 있습니다.

 

$$ y = b_0 + b_1$$


이 때, 절편 $(b_0)$ 과 기울기 $(b_1)$ 는 추정값입니다.

② 는 $x_i$ 의 예측값입니다.

 

$$ \hat{y} = b_0 + b_1 x_i $$


③ 은 관측값과 예측값의 차이입니다. 이를 잔차(residual) 라고 합니다.

 

$$ d_i = y_i - (b_0 + b_1 x_i) $$

 

(2) 최적의 직선

 

추정된 직선이 좋은 직선인가 아닌가에 대한 기준 설정이 필요합니다.
최적의 직선은 어떻게 구할 수 있을까 ?

 



각 점(관측값)에서 선(예측값)에 이르는 거리의 합이 가장 낮은 값을 가지는 선이 최적의 직선이라 할 수 있습니다.

거리를 구하는 방법에는 최소절대편차법과 최소제곱법이 있습니다.

▶ 최소절대편차법(Least Absolute Deviation method)

 

$$ \sum |d_i| = \sum |y_i - b_0 - b_1 x_i| $$

 


▶ 최소제곱법 (Least Squares Method)

 

$$ \sum d_i^2 = \sum (y_i - b_0 -b_1 x_i)^2 $$

 

 

(3) 최소제곱법

 

단순선형회귀분석에서 최소제곱법(Least Squares Method)은 관찰된 데이터와 회귀선 사이의 잔차(오차)의 제곱을 최소화하여 최적의 회귀선을 찾는 방법입니다. 이 방법은 회귀선과 관찰된 데이터 간의 오차를 측정하고 이 오차의 제곱을 최소화하여 회귀선의 기울기와 절편을 결정합니다.

최소제곱법은 다음과 같은 과정으로 진행됩니다.
먼저, 관찰된 데이터 포인트와 회귀선 사이의 수직 거리를 계산합니다.
그 이후, 이 거리의 제곱을 모두 더하여 총 제곱 오차를 구합니다.
다음, 총 제곱 오차를 최소화하는 회귀선의 기울기와 절편을 찾습니다.
이렇게 찾은 회귀선이 최적의 회귀선이 됩니다.

최소제곱법을 사용하면 회귀선이 주어진 데이터에 가장 잘 맞는 선형 모델을 찾을 수 있습니다. 이는 관측된 데이터와 모델 예측값 사이의 차이(잔차)를 최소화하여 모델의 적합성을 높이는 데 도움이 됩니다.

최소제곱법은 기울기와 절편에 대해 미분가능하여 최소로 만드는 기울기와 절편을 찾을 수 있다는 장점 때문에 주로 사용됩니다.

 

$$ \sum d_i^2 = \sum (y_i - b_0 -b_1 x_i)^2 $$


위 식을 미분하면,

 

절편 : $\frac{\partial D}{\partial b_0} = -2 \sum(y-i - b_0 -b_1 x_i) =0 $

$\implies$  ①  $\sum y_i - n b_0 - b_1 \sum x_i = 0 $

 

 

기울기 : $\frac{\partial D}{\partial b_1} = -2 \sum x_i(y-i - b_0 -b_1 x_i) =0 $

$\implies$   $\sum x_i y_i - b_0\sum x_i - b_1\sum x_i^2 = 0 $


위 ①과 ② 식을 연립방정식으로 풀면

 

$$ b_1 = \frac{\sum x_i y_i - n \bar{x} \bar{y}}{\sum x_i^2 - n\bar{x}^2} = \frac{S_{xy}}{S_{xx}}  \implies \hat{\beta_1}$$

$$ b_0 = \bar{y} - b_1 \bar{x} \implies \hat{\beta_0}$$

 


※ 참조 : 상관분석

 

$$R_{XY} = \frac{1}{n-1} \sum \left(\frac{X_i - \bar{X}}{S_X} \right) \left(\frac{Y_i - \bar{Y}}{S_Y} \right) = \frac{S_{XY}}{\sqrt{S_{XX} S_{YY}}}$$

 

$$S_{XY} = \sum (X_i - \bar{X})(Y_i - \bar{Y})$$

$$S_{XX} = \sum (X_i - \bar{X})^2 ,\quad S_{YY}= \sum (Y_i - \bar{Y})^2 $$


따라서, 최소제곱 기울기와 절편의 추정값은 아래와 같이 정리할 수 있습니다.

 

$$\hat{\beta_1} = S_{xy} / S_{xx} $$

$$\hat{\beta_0} = \bar{y} - \hat{\beta_1} \bar{x} $$


위 추정값은 실제 자료 분석에 사용됩니다.
또한, 최소제곱 추정량은 아래와 같이 나타낼 수 있습니다.

 

$$\hat{\beta_1} = S_{xY} / S_{xx} $$

$$\hat{\beta_0} = \bar{Y} - \hat{\beta_1} \bar{x} $$


이는 통계적 추론(분포,기대값 등)을 할 때 사용됩니다.

 

(4) 적합값 (fitted value)

 

적합값(fitted value)은 회귀분석에서 독립변수의 값에 대응하는 종속변수의 추정값을 말합니다. 즉, 회귀분석 모델을 사용하여 독립변수의 값을 입력했을 때, 그에 해당하는 종속변수의 예측값을 적합값이라고 합니다. 적합값은 회귀선상의 점으로, 주어진 독립변수 값에 대해 모델이 예측하는 종속변수의 값입니다. 이 값은 회귀분석 모델에 의해 추정되며, 회귀선의 방정식을 사용하여 계산됩니다.

▶ 적합회귀직선(추정회귀직선)

 

$$\hat{\beta_0} + \hat{\beta_1} x$$


▶ 적합값(예측값, predicted value)

 

$$ \hat{y_i} = \hat{\beta_0} + \hat{\beta_1} x_i $$

$$ \hat{Y_i} = \hat{\beta_0} + \hat{\beta_1} x_i $$


▶ 잔차(residual) : 관측값과 예측값의 차이

 

$$e_i = y_i - \hat{y_i}$$

$$e_i = Y_i - \hat{Y_i}$$

 

$$ -2 \sum (y-i - b_0 -b_1 x_i) =0 \implies \sum e_i = 0 $$

$$ -2 \sum x_i(y-i - b_0 -b_1 x_i) =0 \implies \sum x_i e_i = 0 $$