104. 회귀분석에서의 통계적 추론
Chapter 104. 회귀분석에서의 통계적 추론
1. 회귀분석에서의 통계적 추론
회귀분석의 핵심은 "변수간의 관계"를 나타내는 것입니다.
앞서 단순선형회귀모형으로 선형 회귀식을 구해봤습니다. 선형 회귀식은 두 변수의 관계를 선으로 단순하게 나타내는 방법입니다. 하지만, 이렇게 구한 선형 회귀식은 두 변수간의 관계를 100% 완전히 반영할 수 없습니다. 따라서, 이 선형 회귀식이 유의한지 여부를 확인할 필요가 있습니다.
회귀분석 모델에서 나온 선형 회귀식이 유의한지 여부를 확인하기 위해서는 통계적 추론이 필요합니다.
통계적 추론을 통하여 회귀 계수의 유의성을 평가하고, 모델이 데이터를 얼마나 잘 설명하는지 등을 판단할 수 있고, 회귀모델이 적절하게 데이터를 설명하는지 여부를 확인할 수 있습니다.
회귀분석에서의 통계적 추론이란 주로 회귀 모델의 기울기와 절편 (회귀 계수) 및 잔차에 대하여 추론하는 것입니다.
기울기와 절편은 독립변수와 종속변수 간의 관계를 나타내며, 이들이 통계적으로 유의한지를 판단하여 두 변수 간의 관련성을 평가합니다. 또한 잔차는 모델의 적합성을 평가하고, 오차 항의 정규성과 독립성 등 모델의 가정을 확인하기 위해 사용됩니다. 따라서 회귀분석에서 통계적 추론은 이러한 요소들에 대한 통계적 유의성을 평가하는 것으로 이해할 수 있습니다.
회귀분석에서의 통계적 추론은 주어진 데이터를 사용하여 회귀 모델의 기울기와 절편 (회귀 계수) 및 잔차 에 대한 가설을 검정하는 것을 말합니다. 주로 회귀 모델의 기울기와 절편 (회귀 계수) 및 잔차 에 대한 통계적 추론은 다음과 같은 가설 검정을 포함합니다.
(1) 회귀 계수의 유의성 검정
각 독립변수의 회귀 계수가 종속변수에 미치는 영향의 유의성을 검정합니다. 이를 통해 특정 독립변수가 종속변수에 유의한 영향을 미치는지 여부를 판단할 수 있습니다.
(2) 전체 모델의 유의성 검정
전체 회귀 모델이 종속변수를 설명하는 데 유의한지를 검정합니다. 즉, 모든 회귀 계수가 동시에 0인지 여부를 검정하여 전체 모델이 유의한지를 판단합니다.
(3) 잔차의 정규성 검정 과 독립성 검정
회귀 모델에서 잔차는 종속변수와 모델 예측값 간의 차이를 나타냅니다. 잔차는 정규분포를 따르는지 확인함으로써 회귀 모델의 가정을 검정할 수 있습니다.
회귀 분석에서 잔차는 서로 독립적이어야 합니다. 이를 통해 회귀 모델이 시간이나 다른 조건에 따라서도 잘 작동하는지를 확인할 수 있습니다.
이러한 통계적 추론을 통해 회귀 모델이 데이터에 잘 적합되었는지, 모델이 유의한지 여부를 판단하고, 모델의 예측력을 평가할 수 있습니다. 쉽게 말하자면, 회귀분석의 통계적 추론이란 회귀직선이 제대로 그려졌는지 확인하는 과정이라 할 수 있습니다.
2. 회귀 추론을 위한 기본적인 원리
회귀모델에 대한 통계적 추론을 할 때 아래와 같은 기본원리를 가정합니다.
(1) 회귀 모형식 가정
단순선형 회귀모형은 아래와 같습니다.
$$Y_i = \beta_0 + \beta_1x_i + \epsilon_i$$
$$ \epsilon_i \sim iid N(0,\sigma^2)$$
최소제곱법에 의한 모수 추정에서는 특별히 오차항의 가정을 사용하지 않습니다.
$$ \sum (y_i - \beta_0 -\beta_1x_i )^2$$
하지만, "예측값"의 성질을 유도하기 위해서는 오차항의 가정이 필요합니다.
$$ \epsilon_i \sim iid N(0,\sigma^2)$$
$$ \implies Y_i \sim N(\beta_0 + \beta_1x_i , \sigma^2)$$
예측값은 평균은 $\beta_0+\beta_1x_i$ 이고, 분산은 $\sigma^2$ 인 정규분포를 따른다고 가정합니다.
(2) 예측값에 대한 표준화
예측값은 확률변수로 매번 값이 바뀔 수 있는 형태를 가지고 있습니다. 특히 평균의 경우는 매번 다른 값으로 나타날 수 있습니다.
예측값은 표집분포라 할 수 있습니다. 표집분포는 선형결합일 때도 정규분포를 따르게 됩니다. 따라서, 예측값이 정규분포를 따르고 서로 독립이면 예측값의 선형결합도 정규분포를 따르게 됩니다.
$Y_i \sim N(\mu_i, \sigma^2)$이고 서로 독립이면,
$$ \implies \sum \alpha_i Y_i \sim N \left( \sum \alpha_i \mu_i, \sigma^2 \sum \alpha_i^2 \right)$$
정규분포를 활용하기위해서는 표준화가 필요합니다. 위를 표준화하면 아래와 같습니다.
$$ \frac{\sum \alpha_i Y_i - \sum \alpha_i \mu_i}{\sqrt{\sigma^2 \sum \alpha_i^2}} \sim N(0, 1)$$
따라서, 예측값을 표준화하면 아래와 같습니다. $(\mu_i \implies \beta_0+\beta_1x_i)$
$Y_i \sim N(\beta_0+\beta_1 x_i, \sigma^2)$이고 서로 독립이면,
$$ \frac{\sum \alpha_i Y_i - \sum \alpha_i(\beta_0+\beta_1 x_i)}{\sqrt{\sigma^2 \sum \alpha_i^2}} \sim N(0, 1)$$
(3) 모분산(모표준편차)의 추정
표준화된 예측값은 평균 0, 분산 1인 표준정규분포를 따르게 됩니다.
하지만, 앞선 식에서 모분산 $\sigma^2$에 대해 알 수 없기 때문에 모분산에 대한 추정이 필요합니다.
모분산을 추정할 때는 여러 방법이 있지만, MSE(Mean Square Error)를 사용하고자 합니다.
앞서, 분산분석-변동분해에서, 평균제곱오차(MSE)에 대해 알아봤습니다.
2024.07.02 - [통계학 이야기] - 87. 분산분석 - 변동분해
87. 분산분석 - 변동분해
Chapter 87. 분산분석 - 변동분해 1. 변동분해(Decomposition of Variance) 분산분석(ANOVA)의 변동분해는 전체 변동을 다양한 요인 또는 처리로 분해하는 과정을 의미합니다. 이러한 변동분해를 통해 각 요
thinking-atelier.tistory.com
▶ 평균 제곱 오차 ( Mean Square Error )
오차에 대한 평균제곱 (Mean Square for Error)으로 모형에서 설명하지 못하는 변동을 의미합니다. 오차에 대한 평균제곱은 주로 통계적 가설 검정에서 사용되며, 모형이 설명하지 못하는 잔차에 대한 분산을 나타냅니다.
$$ MSE = \frac{SSE}{N-p}$$
평균제곱은 모형의 분산을 나타내므로, 효과에 대한 평균제곱과 오차에 대한 평균제곱을 비교하여 모형이 설명하는 변동과 설명하지 못하는 잔차 사이의 상대적인 중요성을 평가하는 데 사용됩니다. 이러한 비교를 통해 각 처리나 요인이 결과에 미치는 영향을 파악하고, 모형의 적합성을 평가할 수 있습니다.
MSE는 잔차에 대한 분산을 나타냅니다.
앞서 예측값은 아래와 같이 정규분포를 이룬다고 가정했는데,
$$ \epsilon_i \sim iid N(0,\sigma^2)$$
$$ \implies Y_i \sim N(\beta_0 + \beta_1x_i , \sigma^2)$$
위 분포에서의 모분산 $\sigma^2$ 은 결국 오차의 분산이라고 할 수 있습니다.
MSE를 구하기위해 먼저 SSE(Sum of Square Error)는 아래와 같이 구할 수 있습니다.
$$ \sum(Y_i - (\hat{\beta_0}+\hat{beta_1}x_i))^2 = \sum e_i^2 = SSE $$
다시 SSE를 자유도로 나눠주면 MSE를 구할 수 있습니다.
잔차 $n$개 중 $n-2$ 만 자유롭게 가질 수 있어 자유도는 $n-2$가 적용됩니다.
이유는 잔차는 아래의 제약조건을 가지기 때문입니다.
$$ \sum e_i = 0 , \sum x_ie_i = 0 $$
따라서, MSE는 아래와 같이 정리할 수 있습니다.
$$ MSE = \frac{1}{n-2} \sum(Y_i - (\hat{\beta_0}+\hat{\beta_1}x_i))^2 \implies \sigma^2$$
(4) 중심축량
앞서 예측값을 표준화하여 아래와 같이 구했습니다.
$Y_i \sim N(\beta_0+\beta_1 x_i, \sigma^2)$이고 서로 독립이면,
$$ \frac{\sum \alpha_i Y_i - \sum \alpha_i(\beta_0+\beta_1 x_i)}{\sqrt{\sigma^2 \sum \alpha_i^2}} \sim N(0, 1)$$
이를 모분산 추정값으로 MSE를 사용하여 정리하면 아래와 같습니다.
$Y_i \sim N(\beta_0+\beta_1 x_i, \sigma^2)$이고 서로 독립이면,
$$ \frac{\sum \alpha_i Y_i - \sum \alpha_i(\beta_0+\beta_1 x_i)}{MSE\sqrt{ \sum \alpha_i^2}} \sim t_{n-2}$$
모분산 대신 MSE를 사용함에 따라 자유도 n-2인 t분포를 따릅니다.
지금까지 회귀분석에 대한 통계적 추론을 할 때 필요한 기본 가정 및 원리에 대해 알아봤습니다. 다음 회차에는 회귀선형식 안의 회귀계수(기울기)에 대한 통계적 추론에 대해 알아보겠습니다.