일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- r
- 회귀분석
- 오블완
- 통계학
- 추정
- 글쓰기
- 모평균에 대한 통계적추론
- 변량효과모형
- 확률
- 반복없음
- html
- 산점도
- 이원배치 분산분석
- JavaScript
- version 1
- 티스토리챌린지
- 정규분포
- 두 평균의 비교
- 데이터 과학
- 분산분석
- 이항분포
- 혼합효과모형
- 변동분해
- 에세이
- 고정효과모형
- 가설검정
- 인공지능
- css
- 경제학
- 반복있음
- Today
- Total
생각 작업실 The atelier of thinking
106. 회귀분석 - 예측값과 관측값 본문
Chapter 106. 회귀분석 - 예측값과 관측값
1. 예측값과 관측값
회귀분석에서 예측값이란 회귀분석 모델이 분석해서 예측한 값을 말합니다. 관측값은 실제 데이터에서 직접 수집하거나 측정한 값입니다. 그리고 예측값과 관측값의 차이를 잔차라고 한다. 이 잔차가 작을 수록 회귀분석 모델의 성능이 좋다고 말할 수 있다.
회귀분석의 목적은 예측값과 관측값의 차이를 최소화하는 모델을 만드는 것이다.
단순선형 회귀모형은 아래와 같습니다.
$$Y_i = \beta_0 + \beta_1x_i + \epsilon_i$$
$$ \epsilon_i \sim iid N(0,\sigma^2)$$
위 모형을 그림으로 나타내면, 아래와 같습니다.
① 은 최소제곱법을 이용하여 구한 직선입니다.
② 는 ① 선상위의 값으로 예측값을 말합니다.
③ 은 잔차로서 관측값($y_i$)과 에측값의 차이입니다.
2. 예측값 평균에 대한 통계적 추론
(1) 반응변수(예측값)의 기대값에 대한 추론
예측값의 기대값은 예측값 평균이라 할 수 있습니다.
새로운 설명변수 x에 대한 반응변수(예측값) y의 기대값은 아래와 같이 나타낼 수 있습니다.
$$ E(Y_k) = \beta_0 + \beta_1x_k $$
위 그래프 선 위에 위치할 것으로 예상할 수 있습니다. 따라서, 점 추정량은 아래와 같이 표현할 수 있습니다.
$$ \hat{Y_k}=\hat{\beta_0}+\hat{\beta_1}x_k $$
(2) 점 추정량의 통계적 성질
점 추정량은 예측값($Y_i$)들의 선형결합입니다. 아래와 같이 증명할 수 있습니다.
$$ \hat{Y_k}=\hat{\beta_0}+\hat{\beta_1}x_k $$
$$ =(\bar{Y}-\hat{\beta_1}\bar{x}) + \hat{\beta_1}x_k$$
$$ =\bar{Y}+(x_k - \bar{x})\hat{\beta_1}$$
$$ =\bar{Y}+(x_k-\bar{x})\frac{S_{xY}}{S_{xx}} $$
$$ =\sum \left(\frac{1}{n}+(x_k-\bar{x})\frac{(x_i-\bar{x})}{S_{xx}} \right) Y_i $$
$Y_i$는 정규분포를 따른다.
$$ Y_i \sim N(\beta_0 + \beta_1 x_i , \sigma^2)$$
예측값($Y_i$)이 정규분포를 따르기 때문에 예측값 ($Y_i$) 평균의 점 추정량 역시 정규분포를 따른다고 할 수 있습니다.
점 추정량의 기대값과 분산은 아래와 같습니다.
$$E(\hat{Y_k}) = E(\hat{\beta_0}+\hat{\beta_1}x_k) = \beta_0 + \beta_1x_k$$
$$Var(\hat{Y_k}) = \sigma^2 \sum \left( \frac{1}{n} + (x_k - \bar{x})\frac{(x_i - \bar{x})}{S_{xx}} \right)^2 $$
$$ = \sigma^2 \left( \frac{1}{n} + \frac{(x_k - \bar{x})^2}{S_{xx}} \right) $$
따라서, 점 추정량은 아래와 같이 정규분포를 따릅니다.
$$ \hat{Y_k} \sim N \left( \beta_0+\beta_1x_k, \sigma^2 \left( \frac{1}{n} + \frac{(x_k - \bar{x})^2}{S_{xx}} \right) \right)) $$
점추정량의 기대값은 선을 기준으로 정규분포를 이루는 모습으로 나타납니다.
(3) 중심축량
모분산 $\sigma^2$은 알 수 없으므로 MSE를 대신 사용합니다.
$$\frac{\hat{Y_k} - E(Y_k)}{\sqrt{MSE} \sqrt{\frac{1}{n}+\frac{(x_k - \bar{x})^2}{S_{xx}}}} \sim t_{n-2}$$
중심축량은 자유도 n-2인 t-분포를 따릅니다.
(4) 구간 추정
$100(1-\alpha)%$ 신뢰구간은 아래와 같습니다.
$$ \hat{Y_k} \pm t_{\alpha/2 , n-2} \sqrt{MSE} \sqrt{\frac{1}{n} + \frac{(x_k - \bar{x})^2}{S_{xx}}} $$
3. 새로운 관측값에 대한 통계적 추론
(1) 반응변수 예측값에 대한 추론
반응변수의 예측값은 새로운 관측값이라 말할 수 있습니다.
'통계학 이야기' 카테고리의 다른 글
107. R을 이용한 회귀분석 예측값 구하기 (0) | 2024.11.28 |
---|---|
105. 회귀 계수에 대한 통계적 추론 (0) | 2024.08.27 |
104. 회귀분석에서의 통계적 추론 (0) | 2024.08.22 |
103. R을 이용한 회귀분석 (0) | 2024.08.06 |
102. 단순선형 회귀모형 (1) | 2024.07.26 |