생각 작업실 The atelier of thinking

104. 회귀분석에서의 통계적 추론 본문

통계학 이야기

104. 회귀분석에서의 통계적 추론

knowledge-seeker 2024. 8. 22. 11:01

Chapter 104. 회귀분석에서의 통계적 추론

 

1. 회귀분석에서의 통계적 추론

 

회귀분석의 핵심은 "변수간의 관계"를 나타내는 것입니다.

 

앞서 단순선형회귀모형으로 선형 회귀식을 구해봤습니다. 선형 회귀식은 두 변수의 관계를 선으로 단순하게 나타내는 방법입니다. 하지만, 이렇게 구한 선형 회귀식은 두 변수간의 관계를 100% 완전히 반영할 수 없습니다. 따라서, 이 선형  회귀식이 유의한지 여부를 확인할 필요가 있습니다.


 회귀분석 모델에서 나온 선형 회귀식이 유의한지 여부를 확인하기 위해서는 통계적 추론이 필요합니다.

 

통계적 추론을 통하여 회귀 계수의 유의성을 평가하고, 모델이 데이터를 얼마나 잘 설명하는지 등을 판단할 수 있고, 회귀모델이 적절하게 데이터를 설명하는지 여부를 확인할 수 있습니다.

회귀분석에서의 통계적 추론이란 주로 회귀 모델의 기울기와 절편 (회귀 계수) 및 잔차에 대하여 추론하는 것입니다. 

 

기울기와 절편은 독립변수와 종속변수 간의 관계를 나타내며, 이들이 통계적으로 유의한지를 판단하여 두 변수 간의 관련성을 평가합니다. 또한 잔차는 모델의 적합성을 평가하고, 오차 항의 정규성과 독립성 등 모델의 가정을 확인하기 위해 사용됩니다. 따라서 회귀분석에서 통계적 추론은 이러한 요소들에 대한 통계적 유의성을 평가하는 것으로 이해할 수 있습니다.

회귀분석에서의 통계적 추론은 주어진 데이터를 사용하여 회귀 모델의  기울기와 절편 (회귀 계수) 및 잔차  에 대한 가설을 검정하는 것을 말합니다. 주로 회귀 모델의  기울기와 절편 (회귀 계수) 및 잔차  에 대한 통계적 추론은 다음과 같은 가설 검정을 포함합니다.

 

(1) 회귀 계수의 유의성 검정

 

각 독립변수의 회귀 계수가 종속변수에 미치는 영향의 유의성을 검정합니다. 이를 통해 특정 독립변수가 종속변수에 유의한 영향을 미치는지 여부를 판단할 수 있습니다.

 

(2) 전체 모델의 유의성 검정

 

전체 회귀 모델이 종속변수를 설명하는 데 유의한지를 검정합니다. 즉, 모든 회귀 계수가 동시에 0인지 여부를 검정하여 전체 모델이 유의한지를 판단합니다.

 

(3) 잔차의 정규성 검정 과 독립성 검정

 

회귀 모델에서 잔차는 종속변수와 모델 예측값 간의 차이를 나타냅니다. 잔차는 정규분포를 따르는지 확인함으로써 회귀 모델의 가정을 검정할 수 있습니다. 

회귀 분석에서 잔차는 서로 독립적이어야 합니다. 이를 통해 회귀 모델이 시간이나 다른 조건에 따라서도 잘 작동하는지를 확인할 수 있습니다.

 

이러한 통계적 추론을 통해 회귀 모델이 데이터에 잘 적합되었는지, 모델이 유의한지 여부를 판단하고, 모델의 예측력을 평가할 수 있습니다. 쉽게 말하자면, 회귀분석의 통계적 추론이란 회귀직선이 제대로 그려졌는지 확인하는 과정이라 할 수 있습니다.

 

 

 


 

2. 회귀 추론을 위한 기본적인 원리

 

회귀모델에 대한 통계적 추론을 할 때 아래와 같은 기본원리를 가정합니다.

 

(1) 회귀 모형식 가정

 

단순선형 회귀모형은 아래와 같습니다.

 

Yi=β0+β1xi+ϵi

ϵiiidN(0,σ2)

 


최소제곱법에 의한 모수 추정에서는 특별히 오차항의 가정을 사용하지 않습니다.

 

(yiβ0β1xi)2


하지만, "예측값"의 성질을 유도하기 위해서는 오차항의 가정이 필요합니다.

 

ϵiiidN(0,σ2)

YiN(β0+β1xi,σ2)


예측값은 평균β0+β1xi 이고, 분산σ2 인 정규분포를 따른다고 가정합니다.

 

 

(2) 예측값에 대한 표준화

 

예측값은 확률변수로 매번 값이 바뀔 수 있는 형태를 가지고 있습니다. 특히 평균의 경우는 매번 다른 값으로 나타날 수 있습니다.

예측값은 표집분포라 할 수 있습니다. 표집분포는 선형결합일 때도 정규분포를 따르게 됩니다. 따라서, 예측값이 정규분포를 따르고 서로 독립이면 예측값의 선형결합도 정규분포를 따르게 됩니다.

 

YiN(μi,σ2)이고 서로 독립이면,

αiYiN(αiμi,σ2α2i)


정규분포를 활용하기위해서는 표준화가 필요합니다. 위를 표준화하면 아래와 같습니다.

 

αiYiαiμiσ2α2iN(0,1)


따라서, 예측값을 표준화하면 아래와 같습니다. (μiβ0+β1xi)

 

YiN(β0+β1xi,σ2)이고 서로 독립이면,

αiYiαi(β0+β1xi)σ2α2iN(0,1)

 

(3) 모분산(모표준편차)의 추정

 

표준화된 예측값은 평균 0, 분산 1인 표준정규분포를 따르게 됩니다. 

하지만, 앞선 식에서 모분산 σ2에 대해 알 수 없기 때문에 모분산에 대한 추정이 필요합니다.

모분산을 추정할 때는 여러 방법이 있지만, MSE(Mean Square Error)를 사용하고자 합니다.

앞서, 분산분석-변동분해에서, 평균제곱오차(MSE)에 대해 알아봤습니다.

 

2024.07.02 - [통계학 이야기] - 87. 분산분석 - 변동분해

 

87. 분산분석 - 변동분해

Chapter 87. 분산분석 - 변동분해 1. 변동분해(Decomposition of Variance) 분산분석(ANOVA)의 변동분해는 전체 변동을 다양한 요인 또는 처리로 분해하는 과정을 의미합니다. 이러한 변동분해를 통해 각 요

thinking-atelier.tistory.com

 

 

▶ 평균 제곱 오차 ( Mean Square Error )

오차에 대한 평균제곱 (Mean Square for Error)으로 모형에서 설명하지 못하는 변동을 의미합니다. 오차에 대한 평균제곱은 주로 통계적 가설 검정에서 사용되며, 모형이 설명하지 못하는 잔차에 대한 분산을 나타냅니다.

 

MSE=SSENp

평균제곱은 모형의 분산을 나타내므로, 효과에 대한 평균제곱과 오차에 대한 평균제곱을 비교하여 모형이 설명하는 변동과 설명하지 못하는 잔차 사이의 상대적인 중요성을 평가하는 데 사용됩니다. 이러한 비교를 통해 각 처리나 요인이 결과에 미치는 영향을 파악하고, 모형의 적합성을 평가할 수 있습니다.

MSE는 잔차에 대한 분산을 나타냅니다.

앞서 예측값은 아래와 같이 정규분포를 이룬다고 가정했는데,

 

ϵiiidN(0,σ2)

YiN(β0+β1xi,σ2)


위 분포에서의 모분산 σ2 은 결국 오차의 분산이라고 할 수 있습니다.

MSE를 구하기위해 먼저 SSE(Sum of Square Error)는 아래와 같이 구할 수 있습니다.

 

(Yi(^β0+^beta1xi))2=e2i=SSE

 

다시 SSE를 자유도로 나눠주면 MSE를 구할 수 있습니다.

잔차 n개 중 n2 만 자유롭게 가질 수 있어 자유도는 n2가 적용됩니다.
이유는 잔차는 아래의 제약조건을 가지기 때문입니다.

 

ei=0,xiei=0


따라서, MSE는 아래와 같이 정리할 수 있습니다.

 

MSE=1n2(Yi(^β0+^β1xi))2σ2

 

(4) 중심축량

 

앞서 예측값을 표준화하여 아래와 같이 구했습니다.

 

YiN(β0+β1xi,σ2)이고 서로 독립이면,

αiYiαi(β0+β1xi)σ2α2iN(0,1)


이를 모분산 추정값으로 MSE를 사용하여 정리하면 아래와 같습니다.

 

YiN(β0+β1xi,σ2)이고 서로 독립이면,

αiYiαi(β0+β1xi)MSEα2itn2


모분산 대신 MSE를 사용함에 따라 자유도 n-2인 t분포를 따릅니다.

 


 

지금까지 회귀분석에 대한 통계적 추론을 할 때 필요한 기본 가정 및 원리에 대해 알아봤습니다. 다음 회차에는 회귀선형식 안의 회귀계수(기울기)에 대한 통계적 추론에 대해 알아보겠습니다.