생각 작업실 The atelier of thinking

40. 확률변수의 공분산과 상관계수 본문

통계학 이야기

40. 확률변수의 공분산과 상관계수

knowledge-seeker 2023. 10. 22. 18:12

Chapter 40. 확률변수의 공분산과 상관계수

앞서 다변량 자료의 기술통계에서 공분산은 두 변수 사이의 관계를 나타내는 지표로 두 변수의 함께 움직이는 경향을 측정한다고 했습니다. 또한, 상관계수는 두 변수간의 선형관계의 강도와 방향을 나타내는 지표입니다.

 

확률변수의 기대값, 분산, 표준편차는 확률변수 하나에 관련된 것이라면, 확률변수의 공분산과 상관계수는 두 확률변수사이의 관계를 나타내는 것이라 할 수 있습니다.

 

 

1. 확률변수 기대값의 정리

 

확률변수의 공분산을 구하기 위해서는 확률변수 기대값의 정리를 미리 파악해 둘 필요가 있습니다.

 

$$ E(X+Y) = E(X)+E(Y) $$

$$ X와 Y가 독립이면, E(XY) = E(X) E(Y) $$

 

확률변수 X,Y에 대해, X+Y의 기대값을 구한다고 했을 때,

두 변수를 고려한다는 것은 일단 두 변수에 대한 결합분포가 있다는 것을 전제합니다.

따라서 결합확률질량함수나 결합확률밀도함수를 이용할 수 있습니다.

결합확률함수를 이용한 각 확률변수의 기대값은 아래와 같이 나타낼 수 있습니다.

 

$$ E(X) = \sum_{x} xf_X(x) , E(Y) = \sum_y yf_Y(y) $$

 

(1) 이산확률변수 일 때

 

 $$ E(X+Y) = \sum_{x} \sum_{y} (x+y) f( x, y ) $$

 

 위와 같이 X+Y의 기대값을 결합확률질량함수로 표현할 수 있습니다.

이를 분리해서 다시 풀면 아래와 같습니다.

$$ E(X+Y) = \sum_{x} \sum_{y} (x+y) f( x, y ) $$

$$ E(X+Y) = \sum_{x} \sum_{y} xf( x, y )+\sum_{x} \sum_{y} yf( x, y )$$

$$ E(X+Y) = \sum_{x} xf(x)+ \sum_{y} y f( y ) $$

$$ E(X+Y) = E(X) + E(Y) $$

 

이 떄, X와 Y가 독립이면, $E(XY) = E(X)E(Y)$ 입니다.

$$ E(XY) = \sum_{x} \sum_{y} xyf( x, y )$$

 

위와 같이 XY의 기대값을 표현할 수 있습니다.

독립확률변수에서 위의 식을 결합확률질량함수로 표현하면, 아래와 같습니다.

$$ f(x,y) = f_X(x) f_Y(y) $$

독립이면 위의 식이 성립합니다. 따라서, 아래와 같이 정리할 수 있습니다.

 

$$ E(XY) = \sum_{x} \sum_{y} xyf( x, y ) $$

$$ E(XY) = \sum_{x} \sum_{y} xyf_X(x)f_Y(y) $$

$$ E(XY) = \sum_{x}f_X(x)  \sum_{y} yf_X(y)$$

$$ E(XY) = E(X) E(Y) $$

 

 

2. 확률변수의 공분산(Covariance)

 

공분산은 두 변수 사이의 상관관계를 나타내는 통계량입니다. 두 변수 간에 얼마나 같이 변화하는지를 나타냅니다.

확률변수의 공분산은 수치자료 표본공분산으로 부터 유도할 수 있습니다.

 

표본공분산을 구하는 산식은 아래와 같습니다.

$$ \begin{align} c_{x,y}=\frac{1}{n-1} \sum_{i=1}^n \left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right) \end{align}$$

 

위 식을 아래와 같이 변형시킬 수 있습니다.

표본이 가질 수 있는 값 $ { x_1, x_2, ..., x_{k1}} , {y_1. y_2, ... , y_{k2}} $ 라 하고,

표본중 $ (x_i,y_i) $ 값을 가지는 표본의 수를 $ n_{ij}$ 라 할 때,

$$ \begin{align} c_{x,y}=\frac{1}{n-1} \sum_{i=1}^{k_1} \sum_{j=1}^{k_2} n_{ij}\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right) \end{align}$$

 

여기서 $ n_{ij} $는 일종의 가중치 역할을 합니다.

 

위 식에서 분모, 분자에 n을 곱해주면,

$$ \begin{align} c_{x,y}=\frac{n}{n-1} \sum_{i=1}^{k_1} \sum_{j=1}^{k_2} \frac{n_{ij}}{n}\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right) \end{align}$$

 

여기서 $ \frac{n_{ij}}{n} = p_{ij}$ 로 대입해주면,

 

$$ \begin{align} c_{x,y}=\frac{n}{n-1} \sum_{i=1}^{k_1} \sum_{j=1}^{k_2} p_{ij} \left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right) \end{align}$$

 

위 식에서 확률변수의 공분산을 유도하기 위해 n을 계속 크게하면,

$$ p_i  →  f(x_i), \bar{x} → \mu_{X}, \bar{y} → \mu_{Y} , \frac{n}{n-1} → 1 $$

 

이를 적용하면,

$$ Cov(X,Y) = \sum_{x} \sum_{y} (x-\mu_{X})(y-\mu_{Y})f(x,y) $$

위 식을 풀어서 정리하면,

 

$$ Cov(X,Y) = \sum_{x} \sum_{y} (xy-y\mu_{X}-x\mu_{Y}+\mu_{X} \mu_{Y})f(x,y) $$

 

이 식을 각각 분리해서 보면,

$$ \sum_{x} \sum_{y} xyf(x,y) = E(XY) $$

 

$$ \sum_{x} \sum_{y} x\mu_{Y} f(x,y) = \mu_{Y} \sum_{x} \sum_{y} xf(x,y)$$

  앞서 주변확률 질량함수에서 $f_{X}(x) = \sum_{y} f(x,y) $ 임을 확인할 수 있다.

 따라서 위의 식은, $ \mu_{Y} \sum_{x} f_{X}(x) $ 로 나타낼 수 있습니다.

그리고, $ \sum_{x}f_{X}(x) = \mu_{X} $로 나타낼 수 있습니다.

결론적으로 

 

$$ \sum_{x} \sum_{y} x\mu_{Y} f(x,y) = \mu_{Y} \mu_{X}$$

 

같은방식으로

 

$$ \sum_{x} \sum_{y} y\mu_{X} f(x,y) = \mu_{X} \mu_{Y} $$ 

 

로 나타낼 수 있습니다.

 

$$ \sum_{x} \sum_{y} \mu_{X} \mu_{Y} = \mu_{X} \mu_{Y} $$

 

따라서 이 내용을 위 식에 반영하면,

 

$$ Cov(X,Y) = \sum_{x} \sum_{y} (xy-y\mu_{X}-x\mu_{Y}+\mu_{X} \mu_{Y})f(x,y) $$

$$ Cov(X,Y) = \sum_{x} \sum_{y} xyf(x,y )- \mu_{X} \mu_{Y}  $$

이것을 간략히 아래와 같이 정리할 수 있습니다.

 

$$ Cov(X,Y) = E(XY) - E(X) E(Y) $$

 

따라서 X와 Y가 독립이면 E(XY) = E(X) E(Y) 이므로 공분산 Cov(X,Y)는 0이 됩니다.

역은 일반적으로 성립하지는 않습니다.

 

3. 공분산의 성질

 

(1)  Cov(aX+b, cY+d)

 

기대값의 성질을 먼저 살펴보면,

상수 a의 기대값 E(a) = a,

aX+b의 기대값 E(aX+b) = aE(X)+ b 입니다.

 

그렇다면 aX+b 와 cY+d 사이의 공분산은 어떨까요?

결론부터 보자면, 

$$ Cov(aX+b, cY+d) = ac Cov(X,Y) $$

형태로 나타납니다. 유도되는 과정을 살펴보면 아래와 같습니다.

 

$$ Cov(X,Y) = \sum_{x} \sum_{y} (x-\mu_{X})(y-\mu_{Y})f(x,y) $$

위 식은 아래와 같이 표현할 수 있습니다.

$$ Cov(X,Y) = E((X-\mu_{X})(Y-\mu_{Y})) $$

이 식에 $ X= aX+b, Y=cY+d$ 를 대입하면,

$$ E((aX+b - (a\mu_{X}+b))(cY+d - (c\mu_{Y}+d))) $$

위 처럼 나타납니다. 이제 괄호를 풀고 상수를 앞으로 빼면,

$$ E((aX-a\mu_{X})(cY-c\mu_{Y})) = E(a(X-\mu_(X))c(Y-\mu_{Y})) = acE(X-\mu_{X})(Y-\mu_{Y}) $$

이를 간략히 하면, 아래와 같이 정리할 수 있습니다.

$$ Cov(aX+b, cY+d) = ac Cov(X,Y) $$

 

(2) $Var(X \pm Y)$

 

두 확률변수 X,Y를 더하거나 뺄을 때의 분산은 어떻게 구할 수 있을까요?

결론부터 보자면,

$$ Var( X \pm Y) = Var(X) + Var(Y) \pm 2Cov(X,Y) $$

입니다.

$$ Var(X) = E( (X-\mu)^2) $$

X에 X+Y를 대입하면,

$$ Var(X+Y) = E(((X+Y) - (\mu_{X} + \mu_{Y}))^2) = E(((X-\mu_{X})+(Y-\mu_{Y}))^2)$$

이를 풀어 정리하면,

$$ E((X-\mu_{X})^2 + 2((X-\mu_{X})(Y-\mu_{Y})) + (Y - \mu_{Y})^2))  = E((X-\mu_{X})^2)+E( (Y-\mu_{Y})^2)+2E( (X-\mu_{X})(Y-\mu_{Y})) $$

이를 간략히 표현하면 아래와 같습니다.

$$ Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y) $$

 

X와 Y가 독립이면, $Cov(X,Y)=0 이므로  Var(X \pm Y)=Var(X)+Var(Y)$ 가 됩니다. 

 

4. 상관계수 (Coefficient of Correlation)

 

(1) 상관계수

 

공분산의 문제점은 측정단위에 영향을 받기 때문에 그 값 자체로는 선형관계의 정도를 알 수 없습니다. 이를 해결하기 위해 필요한 것이 표준화입니다.

상관계수는 표준화된 변수들의 공분산이라고 말할 수 있습니다.

표준화 방법은 변수에서 평균을 뺀 값을 표준편차로 나누면 됩니다.

 

확률변수 X,Y를 표준화 하여 각각 U,V 라 한다면 아래와 같이 표현할 수 있습니다.

$$ U = \frac{X-\mu_{X}}{\sigma_{X}} , V = \frac{Y-\mu_{Y}}{\sigma_{Y}} $$

 

이 때 확률변수 U, Y의 기대값은 0이 됩니다.  $ E(U)=E(V)=0$

 

그리고 U,V의 공분산은,

$$ Cov(U,V) = E(UV) - E(U) E(V) = E(UV) $$ 

로 표시할 수 있습니다.

Cov(U,V) 를 확률변수 X, Y로 표현하면,

$$ Cov(U,V) = E \left( \frac{X-\mu_{X}}{\sigma_{X}} \frac{Y-\mu_{Y}}{\sigma_{Y}}\right) = E\left(\frac{ (X-\mu_{X})( Y-\mu_{Y})}{ \sigma_{X} \sigma_{Y}}\right) $$

$$ Cov(U,V) = \frac{1}{\sigma_{X}\sigma_{Y}}E \left((X-\mu_{X})( Y-\mu_{Y})\right) $$

간략히 표현하면,

$$ Cov(U,V) = \frac{Cov(X,Y)}{\sigma_{X} \sigma_{Y}} $$ 

 

여기서 확률변수 X와 Y의 상관계수는 표준화된 U,V의 공분산임을 알 수 있습니다.

 

이를 식으로 표현하면,

$$ \rho_{XY} = Cor(X,Y) = Cov(U,V) = \frac{Cov(X,Y)}{\sigma_{X} \sigma_{Y}} = \frac{Cov(X,Y)}{\sqrt{Var(X)} \sqrt{Var(Y)}} $$

 

(2) 상관계수의 성질

 

① $ -1 \leq \rho \leq 1 $

② 어떤 직선을 중심으로 확률(밀도)이 모여있을 수로 $ |\rho| $는 1에 가깝습니다.

③ 상수 $ a \not= 0$ 에 대해, Y = aX+b 이면 $ |\rho_{XY}|=1 $ 입니다. (X와 Y는 선형관계)