생각 작업실 The atelier of thinking

106. 회귀분석 - 예측값과 관측값 본문

통계학 이야기

106. 회귀분석 - 예측값과 관측값

knowledge-seeker 2024. 11. 20. 23:27

Chapter 106. 회귀분석 - 예측값과 관측값

 

1. 예측값과 관측값

 

회귀분석에서 예측값이란 회귀분석 모델이 분석해서 예측한 값을 말합니다. 관측값은 실제 데이터에서 직접 수집하거나 측정한 값입니다. 그리고 예측값과 관측값의 차이를 잔차라고 한다. 이 잔차가 작을 수록 회귀분석 모델의 성능이 좋다고 말할 수 있다.

 

회귀분석의 목적은 예측값과 관측값의 차이를 최소화하는 모델을 만드는 것이다.

 

단순선형 회귀모형은 아래와 같습니다.

 

Yi=β0+β1xi+ϵi

ϵiiidN(0,σ2)

 

위 모형을 그림으로 나타내면, 아래와 같습니다.

 

 

 

① 은 최소제곱법을 이용하여 구한 직선입니다.

② 는 ① 선상위의 값으로 예측값을 말합니다.

③ 은 잔차로서 관측값(yi)과 에측값의 차이입니다.


 

2. 예측값 평균에 대한 통계적 추론

 

(1) 반응변수(예측값)의 기대값에 대한 추론

 

 예측값의 기대값은 예측값 평균이라 할 수 있습니다.

 

 

새로운 설명변수 x에 대한 반응변수(예측값) y의 기대값은 아래와 같이 나타낼 수 있습니다.

 

E(Yk)=β0+β1xk

 

위 그래프 선 위에 위치할 것으로 예상할 수 있습니다. 따라서, 점 추정량은 아래와 같이 표현할 수 있습니다.

 

^Yk=^β0+^β1xk

 

(2) 점 추정량의 통계적 성질

 

 점 추정량은 예측값(Yi)들의 선형결합입니다. 아래와 같이 증명할 수 있습니다.

 

^Yk=^β0+^β1xk

=(ˉY^β1ˉx)+^β1xk

=ˉY+(xkˉx)^β1

=ˉY+(xkˉx)SxYSxx

=(1n+(xkˉx)(xiˉx)Sxx)Yi

 

Yi는 정규분포를 따른다.

YiN(β0+β1xi,σ2)

 

예측값(Yi)이 정규분포를 따르기 때문에 예측값 (Yi) 평균의 점 추정량 역시 정규분포를 따른다고 할 수 있습니다.

 

점 추정량의 기대값과 분산은 아래와 같습니다.

 

E(^Yk)=E(^β0+^β1xk)=β0+β1xk

Var(^Yk)=σ2(1n+(xkˉx)(xiˉx)Sxx)2

=σ2(1n+(xkˉx)2Sxx)

 

따라서, 점 추정량은 아래와 같이 정규분포를 따릅니다.

 

^YkN(β0+β1xk,σ2(1n+(xkˉx)2Sxx)))

 

 

점추정량의 기대값은 선을 기준으로 정규분포를 이루는 모습으로 나타납니다.

 

(3) 중심축량

 

모분산 σ2은 알 수 없으므로 MSE를 대신 사용합니다.

 

^YkE(Yk)MSE1n+(xkˉx)2Sxxtn2

 

중심축량은 자유도 n-2인 t-분포를 따릅니다.

 

(4) 구간 추정

 

100(1α) 신뢰구간은 아래와 같습니다.

 

^Yk±tα/2,n2MSE1n+(xkˉx)2Sxx

 


3. 새로운 관측값에 대한 통계적 추론

 

(1) 반응변수 예측값에 대한 추론

 

반응변수의 예측값은 새로운 관측값이라 말할 수 있습니다.