일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 고정효과모형
- 산점도
- 회귀분석
- JavaScript
- version 2
- 해운업
- 이항분포
- css
- 오블완
- 변동분해
- 티스토리챌린지
- 분산분석
- 반복있음
- 가설검정
- 추정
- 글쓰기
- r
- 경제학
- 데이터 과학
- 혼합효과모형
- 확률
- 정규분포
- 반복없음
- 변량효과모형
- 에세이
- 인공지능
- version 1
- 이원배치 분산분석
- html
- 통계학
- Today
- Total
생각 작업실 The atelier of thinking
106. 회귀분석 - 예측값과 관측값 본문
Chapter 106. 회귀분석 - 예측값과 관측값
1. 예측값과 관측값
회귀분석에서 예측값이란 회귀분석 모델이 분석해서 예측한 값을 말합니다. 관측값은 실제 데이터에서 직접 수집하거나 측정한 값입니다. 그리고 예측값과 관측값의 차이를 잔차라고 한다. 이 잔차가 작을 수록 회귀분석 모델의 성능이 좋다고 말할 수 있다.
회귀분석의 목적은 예측값과 관측값의 차이를 최소화하는 모델을 만드는 것이다.
단순선형 회귀모형은 아래와 같습니다.
Yi=β0+β1xi+ϵi
ϵi∼iidN(0,σ2)
위 모형을 그림으로 나타내면, 아래와 같습니다.

① 은 최소제곱법을 이용하여 구한 직선입니다.
② 는 ① 선상위의 값으로 예측값을 말합니다.
③ 은 잔차로서 관측값(yi)과 에측값의 차이입니다.
2. 예측값 평균에 대한 통계적 추론
(1) 반응변수(예측값)의 기대값에 대한 추론
예측값의 기대값은 예측값 평균이라 할 수 있습니다.

새로운 설명변수 x에 대한 반응변수(예측값) y의 기대값은 아래와 같이 나타낼 수 있습니다.
E(Yk)=β0+β1xk
위 그래프 선 위에 위치할 것으로 예상할 수 있습니다. 따라서, 점 추정량은 아래와 같이 표현할 수 있습니다.
^Yk=^β0+^β1xk
(2) 점 추정량의 통계적 성질
점 추정량은 예측값(Yi)들의 선형결합입니다. 아래와 같이 증명할 수 있습니다.
^Yk=^β0+^β1xk
=(ˉY−^β1ˉx)+^β1xk
=ˉY+(xk−ˉx)^β1
=ˉY+(xk−ˉx)SxYSxx
=∑(1n+(xk−ˉx)(xi−ˉx)Sxx)Yi
Yi는 정규분포를 따른다.
Yi∼N(β0+β1xi,σ2)
예측값(Yi)이 정규분포를 따르기 때문에 예측값 (Yi) 평균의 점 추정량 역시 정규분포를 따른다고 할 수 있습니다.
점 추정량의 기대값과 분산은 아래와 같습니다.
E(^Yk)=E(^β0+^β1xk)=β0+β1xk
Var(^Yk)=σ2∑(1n+(xk−ˉx)(xi−ˉx)Sxx)2
=σ2(1n+(xk−ˉx)2Sxx)
따라서, 점 추정량은 아래와 같이 정규분포를 따릅니다.
^Yk∼N(β0+β1xk,σ2(1n+(xk−ˉx)2Sxx)))

점추정량의 기대값은 선을 기준으로 정규분포를 이루는 모습으로 나타납니다.
(3) 중심축량
모분산 σ2은 알 수 없으므로 MSE를 대신 사용합니다.
^Yk−E(Yk)√MSE√1n+(xk−ˉx)2Sxx∼tn−2
중심축량은 자유도 n-2인 t-분포를 따릅니다.
(4) 구간 추정
100(1−α) 신뢰구간은 아래와 같습니다.
^Yk±tα/2,n−2√MSE√1n+(xk−ˉx)2Sxx
3. 새로운 관측값에 대한 통계적 추론
(1) 반응변수 예측값에 대한 추론
반응변수의 예측값은 새로운 관측값이라 말할 수 있습니다.

'통계학 이야기' 카테고리의 다른 글
107. R을 이용한 회귀분석 예측값 구하기 (0) | 2024.11.28 |
---|---|
105. 회귀 계수에 대한 통계적 추론 (0) | 2024.08.27 |
104. 회귀분석에서의 통계적 추론 (1) | 2024.08.22 |
103. R을 이용한 회귀분석 (0) | 2024.08.06 |
102. 단순선형 회귀모형 (1) | 2024.07.26 |