일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 반복없음
- 오블완
- 회귀분석
- 반복있음
- css
- JavaScript
- 글쓰기
- version 1
- 이항분포
- 에세이
- 경제학
- 해운업
- 산점도
- 분산분석
- 혼합효과모형
- 추정
- 데이터 과학
- 변동분해
- 변량효과모형
- 티스토리챌린지
- version 2
- 이원배치 분산분석
- html
- 고정효과모형
- 확률
- 가설검정
- 인공지능
- 통계학
- r
- 정규분포
- Today
- Total
생각 작업실 The atelier of thinking
40. 확률변수의 공분산과 상관계수 본문
Chapter 40. 확률변수의 공분산과 상관계수
앞서 다변량 자료의 기술통계에서 공분산은 두 변수 사이의 관계를 나타내는 지표로 두 변수의 함께 움직이는 경향을 측정한다고 했습니다. 또한, 상관계수는 두 변수간의 선형관계의 강도와 방향을 나타내는 지표입니다.
확률변수의 기대값, 분산, 표준편차는 확률변수 하나에 관련된 것이라면, 확률변수의 공분산과 상관계수는 두 확률변수사이의 관계를 나타내는 것이라 할 수 있습니다.
1. 확률변수 기대값의 정리
확률변수의 공분산을 구하기 위해서는 확률변수 기대값의 정리를 미리 파악해 둘 필요가 있습니다.
$$ E(X+Y) = E(X)+E(Y) $$
$$ X와 Y가 독립이면, E(XY) = E(X) E(Y) $$
확률변수 X,Y에 대해, X+Y의 기대값을 구한다고 했을 때,
두 변수를 고려한다는 것은 일단 두 변수에 대한 결합분포가 있다는 것을 전제합니다.
따라서 결합확률질량함수나 결합확률밀도함수를 이용할 수 있습니다.
결합확률함수를 이용한 각 확률변수의 기대값은 아래와 같이 나타낼 수 있습니다.
$$ E(X) = \sum_{x} xf_X(x) , E(Y) = \sum_y yf_Y(y) $$
(1) 이산확률변수 일 때
$$ E(X+Y) = \sum_{x} \sum_{y} (x+y) f( x, y ) $$
위와 같이 X+Y의 기대값을 결합확률질량함수로 표현할 수 있습니다.
이를 분리해서 다시 풀면 아래와 같습니다.
$$ E(X+Y) = \sum_{x} \sum_{y} (x+y) f( x, y ) $$
$$ E(X+Y) = \sum_{x} \sum_{y} xf( x, y )+\sum_{x} \sum_{y} yf( x, y )$$
$$ E(X+Y) = \sum_{x} xf(x)+ \sum_{y} y f( y ) $$
$$ E(X+Y) = E(X) + E(Y) $$
이 떄, X와 Y가 독립이면, $E(XY) = E(X)E(Y)$ 입니다.
$$ E(XY) = \sum_{x} \sum_{y} xyf( x, y )$$
위와 같이 XY의 기대값을 표현할 수 있습니다.
독립확률변수에서 위의 식을 결합확률질량함수로 표현하면, 아래와 같습니다.
$$ f(x,y) = f_X(x) f_Y(y) $$
독립이면 위의 식이 성립합니다. 따라서, 아래와 같이 정리할 수 있습니다.
$$ E(XY) = \sum_{x} \sum_{y} xyf( x, y ) $$
$$ E(XY) = \sum_{x} \sum_{y} xyf_X(x)f_Y(y) $$
$$ E(XY) = \sum_{x}f_X(x) \sum_{y} yf_X(y)$$
$$ E(XY) = E(X) E(Y) $$
2. 확률변수의 공분산(Covariance)
공분산은 두 변수 사이의 상관관계를 나타내는 통계량입니다. 두 변수 간에 얼마나 같이 변화하는지를 나타냅니다.
확률변수의 공분산은 수치자료 표본공분산으로 부터 유도할 수 있습니다.
표본공분산을 구하는 산식은 아래와 같습니다.
$$ \begin{align} c_{x,y}=\frac{1}{n-1} \sum_{i=1}^n \left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right) \end{align}$$
위 식을 아래와 같이 변형시킬 수 있습니다.
표본이 가질 수 있는 값 $ { x_1, x_2, ..., x_{k1}} , {y_1. y_2, ... , y_{k2}} $ 라 하고,
표본중 $ (x_i,y_i) $ 값을 가지는 표본의 수를 $ n_{ij}$ 라 할 때,
$$ \begin{align} c_{x,y}=\frac{1}{n-1} \sum_{i=1}^{k_1} \sum_{j=1}^{k_2} n_{ij}\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right) \end{align}$$
여기서 $ n_{ij} $는 일종의 가중치 역할을 합니다.
위 식에서 분모, 분자에 n을 곱해주면,
$$ \begin{align} c_{x,y}=\frac{n}{n-1} \sum_{i=1}^{k_1} \sum_{j=1}^{k_2} \frac{n_{ij}}{n}\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right) \end{align}$$
여기서 $ \frac{n_{ij}}{n} = p_{ij}$ 로 대입해주면,
$$ \begin{align} c_{x,y}=\frac{n}{n-1} \sum_{i=1}^{k_1} \sum_{j=1}^{k_2} p_{ij} \left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right) \end{align}$$
위 식에서 확률변수의 공분산을 유도하기 위해 n을 계속 크게하면,
$$ p_i → f(x_i), \bar{x} → \mu_{X}, \bar{y} → \mu_{Y} , \frac{n}{n-1} → 1 $$
이를 적용하면,
$$ Cov(X,Y) = \sum_{x} \sum_{y} (x-\mu_{X})(y-\mu_{Y})f(x,y) $$
위 식을 풀어서 정리하면,
$$ Cov(X,Y) = \sum_{x} \sum_{y} (xy-y\mu_{X}-x\mu_{Y}+\mu_{X} \mu_{Y})f(x,y) $$
이 식을 각각 분리해서 보면,
$$ \sum_{x} \sum_{y} xyf(x,y) = E(XY) $$
$$ \sum_{x} \sum_{y} x\mu_{Y} f(x,y) = \mu_{Y} \sum_{x} \sum_{y} xf(x,y)$$
앞서 주변확률 질량함수에서 $f_{X}(x) = \sum_{y} f(x,y) $ 임을 확인할 수 있다.
따라서 위의 식은, $ \mu_{Y} \sum_{x} f_{X}(x) $ 로 나타낼 수 있습니다.
그리고, $ \sum_{x}f_{X}(x) = \mu_{X} $로 나타낼 수 있습니다.
결론적으로
$$ \sum_{x} \sum_{y} x\mu_{Y} f(x,y) = \mu_{Y} \mu_{X}$$
같은방식으로
$$ \sum_{x} \sum_{y} y\mu_{X} f(x,y) = \mu_{X} \mu_{Y} $$
로 나타낼 수 있습니다.
$$ \sum_{x} \sum_{y} \mu_{X} \mu_{Y} = \mu_{X} \mu_{Y} $$
따라서 이 내용을 위 식에 반영하면,
$$ Cov(X,Y) = \sum_{x} \sum_{y} (xy-y\mu_{X}-x\mu_{Y}+\mu_{X} \mu_{Y})f(x,y) $$
$$ Cov(X,Y) = \sum_{x} \sum_{y} xyf(x,y )- \mu_{X} \mu_{Y} $$
이것을 간략히 아래와 같이 정리할 수 있습니다.
$$ Cov(X,Y) = E(XY) - E(X) E(Y) $$
따라서 X와 Y가 독립이면 E(XY) = E(X) E(Y) 이므로 공분산 Cov(X,Y)는 0이 됩니다.
역은 일반적으로 성립하지는 않습니다.
3. 공분산의 성질
(1) Cov(aX+b, cY+d)
기대값의 성질을 먼저 살펴보면,
상수 a의 기대값 E(a) = a,
aX+b의 기대값 E(aX+b) = aE(X)+ b 입니다.
그렇다면 aX+b 와 cY+d 사이의 공분산은 어떨까요?
결론부터 보자면,
$$ Cov(aX+b, cY+d) = ac Cov(X,Y) $$
형태로 나타납니다. 유도되는 과정을 살펴보면 아래와 같습니다.
$$ Cov(X,Y) = \sum_{x} \sum_{y} (x-\mu_{X})(y-\mu_{Y})f(x,y) $$
위 식은 아래와 같이 표현할 수 있습니다.
$$ Cov(X,Y) = E((X-\mu_{X})(Y-\mu_{Y})) $$
이 식에 $ X= aX+b, Y=cY+d$ 를 대입하면,
$$ E((aX+b - (a\mu_{X}+b))(cY+d - (c\mu_{Y}+d))) $$
위 처럼 나타납니다. 이제 괄호를 풀고 상수를 앞으로 빼면,
$$ E((aX-a\mu_{X})(cY-c\mu_{Y})) = E(a(X-\mu_(X))c(Y-\mu_{Y})) = acE(X-\mu_{X})(Y-\mu_{Y}) $$
이를 간략히 하면, 아래와 같이 정리할 수 있습니다.
$$ Cov(aX+b, cY+d) = ac Cov(X,Y) $$
(2) $Var(X \pm Y)$
두 확률변수 X,Y를 더하거나 뺄을 때의 분산은 어떻게 구할 수 있을까요?
결론부터 보자면,
$$ Var( X \pm Y) = Var(X) + Var(Y) \pm 2Cov(X,Y) $$
입니다.
$$ Var(X) = E( (X-\mu)^2) $$
X에 X+Y를 대입하면,
$$ Var(X+Y) = E(((X+Y) - (\mu_{X} + \mu_{Y}))^2) = E(((X-\mu_{X})+(Y-\mu_{Y}))^2)$$
이를 풀어 정리하면,
$$ E((X-\mu_{X})^2 + 2((X-\mu_{X})(Y-\mu_{Y})) + (Y - \mu_{Y})^2)) = E((X-\mu_{X})^2)+E( (Y-\mu_{Y})^2)+2E( (X-\mu_{X})(Y-\mu_{Y})) $$
이를 간략히 표현하면 아래와 같습니다.
$$ Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y) $$
X와 Y가 독립이면, $Cov(X,Y)=0 이므로 Var(X \pm Y)=Var(X)+Var(Y)$ 가 됩니다.
4. 상관계수 (Coefficient of Correlation)
(1) 상관계수
공분산의 문제점은 측정단위에 영향을 받기 때문에 그 값 자체로는 선형관계의 정도를 알 수 없습니다. 이를 해결하기 위해 필요한 것이 표준화입니다.
상관계수는 표준화된 변수들의 공분산이라고 말할 수 있습니다.
표준화 방법은 변수에서 평균을 뺀 값을 표준편차로 나누면 됩니다.
확률변수 X,Y를 표준화 하여 각각 U,V 라 한다면 아래와 같이 표현할 수 있습니다.
$$ U = \frac{X-\mu_{X}}{\sigma_{X}} , V = \frac{Y-\mu_{Y}}{\sigma_{Y}} $$
이 때 확률변수 U, Y의 기대값은 0이 됩니다. $ E(U)=E(V)=0$
그리고 U,V의 공분산은,
$$ Cov(U,V) = E(UV) - E(U) E(V) = E(UV) $$
로 표시할 수 있습니다.
Cov(U,V) 를 확률변수 X, Y로 표현하면,
$$ Cov(U,V) = E \left( \frac{X-\mu_{X}}{\sigma_{X}} \frac{Y-\mu_{Y}}{\sigma_{Y}}\right) = E\left(\frac{ (X-\mu_{X})( Y-\mu_{Y})}{ \sigma_{X} \sigma_{Y}}\right) $$
$$ Cov(U,V) = \frac{1}{\sigma_{X}\sigma_{Y}}E \left((X-\mu_{X})( Y-\mu_{Y})\right) $$
간략히 표현하면,
$$ Cov(U,V) = \frac{Cov(X,Y)}{\sigma_{X} \sigma_{Y}} $$
여기서 확률변수 X와 Y의 상관계수는 표준화된 U,V의 공분산임을 알 수 있습니다.
이를 식으로 표현하면,
$$ \rho_{XY} = Cor(X,Y) = Cov(U,V) = \frac{Cov(X,Y)}{\sigma_{X} \sigma_{Y}} = \frac{Cov(X,Y)}{\sqrt{Var(X)} \sqrt{Var(Y)}} $$
(2) 상관계수의 성질
① $ -1 \leq \rho \leq 1 $
② 어떤 직선을 중심으로 확률(밀도)이 모여있을 수로 $ |\rho| $는 1에 가깝습니다.
③ 상수 $ a \not= 0$ 에 대해, Y = aX+b 이면 $ |\rho_{XY}|=1 $ 입니다. (X와 Y는 선형관계)
'통계학 이야기' 카테고리의 다른 글
42. 베르누이분포 & 이항분포 (이산확률분포) (0) | 2023.10.24 |
---|---|
41. 확률분포의 분류 (1) | 2023.10.23 |
39. 확률분포 - 결합분포&주변분포 (2) | 2023.10.20 |
38. 확률변수의 분산과 표준편차 (1) | 2023.10.19 |
37. 확률변수의 기대값(Expected Value) (1) | 2023.10.18 |