일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 분산분석
- r
- 이항분포
- 반복없음
- 확률
- 회귀분석
- 변동분해
- version 1
- 정규분포
- 고정효과모형
- 글쓰기
- JavaScript
- 데이터 과학
- 통계학
- 이원배치 분산분석
- 변량효과모형
- 가설검정
- css
- html
- 에세이
- 오블완
- 산점도
- 혼합효과모형
- 모평균에 대한 통계적추론
- 두 평균의 비교
- 추정
- 경제학
- 반복있음
- 티스토리챌린지
- 인공지능
- Today
- Total
생각 작업실 The atelier of thinking
104. 회귀분석에서의 통계적 추론 본문
Chapter 104. 회귀분석에서의 통계적 추론
1. 회귀분석에서의 통계적 추론
회귀분석의 핵심은 "변수간의 관계"를 나타내는 것입니다.
앞서 단순선형회귀모형으로 선형 회귀식을 구해봤습니다. 선형 회귀식은 두 변수의 관계를 선으로 단순하게 나타내는 방법입니다. 하지만, 이렇게 구한 선형 회귀식은 두 변수간의 관계를 100% 완전히 반영할 수 없습니다. 따라서, 이 선형 회귀식이 유의한지 여부를 확인할 필요가 있습니다.
회귀분석 모델에서 나온 선형 회귀식이 유의한지 여부를 확인하기 위해서는 통계적 추론이 필요합니다.
통계적 추론을 통하여 회귀 계수의 유의성을 평가하고, 모델이 데이터를 얼마나 잘 설명하는지 등을 판단할 수 있고, 회귀모델이 적절하게 데이터를 설명하는지 여부를 확인할 수 있습니다.
회귀분석에서의 통계적 추론이란 주로 회귀 모델의 기울기와 절편 (회귀 계수) 및 잔차에 대하여 추론하는 것입니다.
기울기와 절편은 독립변수와 종속변수 간의 관계를 나타내며, 이들이 통계적으로 유의한지를 판단하여 두 변수 간의 관련성을 평가합니다. 또한 잔차는 모델의 적합성을 평가하고, 오차 항의 정규성과 독립성 등 모델의 가정을 확인하기 위해 사용됩니다. 따라서 회귀분석에서 통계적 추론은 이러한 요소들에 대한 통계적 유의성을 평가하는 것으로 이해할 수 있습니다.
회귀분석에서의 통계적 추론은 주어진 데이터를 사용하여 회귀 모델의 기울기와 절편 (회귀 계수) 및 잔차 에 대한 가설을 검정하는 것을 말합니다. 주로 회귀 모델의 기울기와 절편 (회귀 계수) 및 잔차 에 대한 통계적 추론은 다음과 같은 가설 검정을 포함합니다.
(1) 회귀 계수의 유의성 검정
각 독립변수의 회귀 계수가 종속변수에 미치는 영향의 유의성을 검정합니다. 이를 통해 특정 독립변수가 종속변수에 유의한 영향을 미치는지 여부를 판단할 수 있습니다.
(2) 전체 모델의 유의성 검정
전체 회귀 모델이 종속변수를 설명하는 데 유의한지를 검정합니다. 즉, 모든 회귀 계수가 동시에 0인지 여부를 검정하여 전체 모델이 유의한지를 판단합니다.
(3) 잔차의 정규성 검정 과 독립성 검정
회귀 모델에서 잔차는 종속변수와 모델 예측값 간의 차이를 나타냅니다. 잔차는 정규분포를 따르는지 확인함으로써 회귀 모델의 가정을 검정할 수 있습니다.
회귀 분석에서 잔차는 서로 독립적이어야 합니다. 이를 통해 회귀 모델이 시간이나 다른 조건에 따라서도 잘 작동하는지를 확인할 수 있습니다.
이러한 통계적 추론을 통해 회귀 모델이 데이터에 잘 적합되었는지, 모델이 유의한지 여부를 판단하고, 모델의 예측력을 평가할 수 있습니다. 쉽게 말하자면, 회귀분석의 통계적 추론이란 회귀직선이 제대로 그려졌는지 확인하는 과정이라 할 수 있습니다.
2. 회귀 추론을 위한 기본적인 원리
회귀모델에 대한 통계적 추론을 할 때 아래와 같은 기본원리를 가정합니다.
(1) 회귀 모형식 가정
단순선형 회귀모형은 아래와 같습니다.
$$Y_i = \beta_0 + \beta_1x_i + \epsilon_i$$
$$ \epsilon_i \sim iid N(0,\sigma^2)$$
최소제곱법에 의한 모수 추정에서는 특별히 오차항의 가정을 사용하지 않습니다.
$$ \sum (y_i - \beta_0 -\beta_1x_i )^2$$
하지만, "예측값"의 성질을 유도하기 위해서는 오차항의 가정이 필요합니다.
$$ \epsilon_i \sim iid N(0,\sigma^2)$$
$$ \implies Y_i \sim N(\beta_0 + \beta_1x_i , \sigma^2)$$
예측값은 평균은 $\beta_0+\beta_1x_i$ 이고, 분산은 $\sigma^2$ 인 정규분포를 따른다고 가정합니다.
(2) 예측값에 대한 표준화
예측값은 확률변수로 매번 값이 바뀔 수 있는 형태를 가지고 있습니다. 특히 평균의 경우는 매번 다른 값으로 나타날 수 있습니다.
예측값은 표집분포라 할 수 있습니다. 표집분포는 선형결합일 때도 정규분포를 따르게 됩니다. 따라서, 예측값이 정규분포를 따르고 서로 독립이면 예측값의 선형결합도 정규분포를 따르게 됩니다.
$Y_i \sim N(\mu_i, \sigma^2)$이고 서로 독립이면,
$$ \implies \sum \alpha_i Y_i \sim N \left( \sum \alpha_i \mu_i, \sigma^2 \sum \alpha_i^2 \right)$$
정규분포를 활용하기위해서는 표준화가 필요합니다. 위를 표준화하면 아래와 같습니다.
$$ \frac{\sum \alpha_i Y_i - \sum \alpha_i \mu_i}{\sqrt{\sigma^2 \sum \alpha_i^2}} \sim N(0, 1)$$
따라서, 예측값을 표준화하면 아래와 같습니다. $(\mu_i \implies \beta_0+\beta_1x_i)$
$Y_i \sim N(\beta_0+\beta_1 x_i, \sigma^2)$이고 서로 독립이면,
$$ \frac{\sum \alpha_i Y_i - \sum \alpha_i(\beta_0+\beta_1 x_i)}{\sqrt{\sigma^2 \sum \alpha_i^2}} \sim N(0, 1)$$
(3) 모분산(모표준편차)의 추정
표준화된 예측값은 평균 0, 분산 1인 표준정규분포를 따르게 됩니다.
하지만, 앞선 식에서 모분산 $\sigma^2$에 대해 알 수 없기 때문에 모분산에 대한 추정이 필요합니다.
모분산을 추정할 때는 여러 방법이 있지만, MSE(Mean Square Error)를 사용하고자 합니다.
앞서, 분산분석-변동분해에서, 평균제곱오차(MSE)에 대해 알아봤습니다.
2024.07.02 - [통계학 이야기] - 87. 분산분석 - 변동분해
▶ 평균 제곱 오차 ( Mean Square Error )
오차에 대한 평균제곱 (Mean Square for Error)으로 모형에서 설명하지 못하는 변동을 의미합니다. 오차에 대한 평균제곱은 주로 통계적 가설 검정에서 사용되며, 모형이 설명하지 못하는 잔차에 대한 분산을 나타냅니다.
$$ MSE = \frac{SSE}{N-p}$$
평균제곱은 모형의 분산을 나타내므로, 효과에 대한 평균제곱과 오차에 대한 평균제곱을 비교하여 모형이 설명하는 변동과 설명하지 못하는 잔차 사이의 상대적인 중요성을 평가하는 데 사용됩니다. 이러한 비교를 통해 각 처리나 요인이 결과에 미치는 영향을 파악하고, 모형의 적합성을 평가할 수 있습니다.
MSE는 잔차에 대한 분산을 나타냅니다.
앞서 예측값은 아래와 같이 정규분포를 이룬다고 가정했는데,
$$ \epsilon_i \sim iid N(0,\sigma^2)$$
$$ \implies Y_i \sim N(\beta_0 + \beta_1x_i , \sigma^2)$$
위 분포에서의 모분산 $\sigma^2$ 은 결국 오차의 분산이라고 할 수 있습니다.
MSE를 구하기위해 먼저 SSE(Sum of Square Error)는 아래와 같이 구할 수 있습니다.
$$ \sum(Y_i - (\hat{\beta_0}+\hat{beta_1}x_i))^2 = \sum e_i^2 = SSE $$
다시 SSE를 자유도로 나눠주면 MSE를 구할 수 있습니다.
잔차 $n$개 중 $n-2$ 만 자유롭게 가질 수 있어 자유도는 $n-2$가 적용됩니다.
이유는 잔차는 아래의 제약조건을 가지기 때문입니다.
$$ \sum e_i = 0 , \sum x_ie_i = 0 $$
따라서, MSE는 아래와 같이 정리할 수 있습니다.
$$ MSE = \frac{1}{n-2} \sum(Y_i - (\hat{\beta_0}+\hat{\beta_1}x_i))^2 \implies \sigma^2$$
(4) 중심축량
앞서 예측값을 표준화하여 아래와 같이 구했습니다.
$Y_i \sim N(\beta_0+\beta_1 x_i, \sigma^2)$이고 서로 독립이면,
$$ \frac{\sum \alpha_i Y_i - \sum \alpha_i(\beta_0+\beta_1 x_i)}{\sqrt{\sigma^2 \sum \alpha_i^2}} \sim N(0, 1)$$
이를 모분산 추정값으로 MSE를 사용하여 정리하면 아래와 같습니다.
$Y_i \sim N(\beta_0+\beta_1 x_i, \sigma^2)$이고 서로 독립이면,
$$ \frac{\sum \alpha_i Y_i - \sum \alpha_i(\beta_0+\beta_1 x_i)}{MSE\sqrt{ \sum \alpha_i^2}} \sim t_{n-2}$$
모분산 대신 MSE를 사용함에 따라 자유도 n-2인 t분포를 따릅니다.
지금까지 회귀분석에 대한 통계적 추론을 할 때 필요한 기본 가정 및 원리에 대해 알아봤습니다. 다음 회차에는 회귀선형식 안의 회귀계수(기울기)에 대한 통계적 추론에 대해 알아보겠습니다.
'통계학 이야기' 카테고리의 다른 글
106. 회귀분석 - 예측값과 관측값 (0) | 2024.11.20 |
---|---|
105. 회귀 계수에 대한 통계적 추론 (0) | 2024.08.27 |
103. R을 이용한 회귀분석 (0) | 2024.08.06 |
102. 단순선형 회귀모형 (1) | 2024.07.26 |
101. 회귀분석(Regression Analysis)이란 (1) | 2024.07.25 |