생각 작업실 The atelier of thinking

52. 정규분포(Normal Distribution) - 연속확률분포 본문

통계학 이야기

52. 정규분포(Normal Distribution) - 연속확률분포

knowledge-seeker 2023. 11. 14. 14:59

Chapter 52. 정규분포(Normal Distribution)

 

1. 정규분포(Normal Distribution)의 유래

통계학 분야에서 가장 중요한 분포로서 정규분포를 꼽고 있습니다. 이 정규분포와 함께 가우스와 피어슨이라는 두 수학자가 자주 언급되고 있습니다.

 

(1) 가우스(Gauss)

 

가우스(Gauss) 또는 카를 프리드리히 가우스(Carl Friedrich Gauss)는 18세기 말부터 19세기초에 걸쳐 살았던 독일의 수학자,천문학자,물리학자,통계학자, 지리학자입니다. 그의 이름은 통계학에서 잘 알려져 있습니다.

가우스는 통계학 분야에서는 최소제곱법과 정규분포를 중심으로 한 연구를 했습니다. 최소제곱법은 특정한 데이터 셋과 가장 근접한 직선을 찾는 방법으로, 데이터 분석에서 매우 중요한 개념 중 하나입니다.

또한 가우스는 정규분포를 발견하였으며, 이 분포는 통계학에서 가장 중요한 분포 중 하나입니다. 정규분포는 대부분의 데이터 분포를 설명하는데 유용하게 사용되며, 중심극한정리의 기반이 되는 분포이기도 합니다.

1809년 최소제곱법(method of least sqaures)의 개념소개 하였습니다.

위치모수의 추정값으로 산출평균이 적절함(오차의 정규법칙)을 보이는 과정에서 정규분포의 밀도함수 형태를 유도

 

(2) 피어슨(K.Pearson)

 

정규분포는 18세기 말에 카를 프리드리히 가우스 (Carl Friedrich Gauss) 가 발견하였고, 이후에 피어슨(William Sealy Gosset)과 피셔(Ronald A. Fisher) 등에 의해 널리 사용되었습니다.

 

피어슨은 정규분포를 확률분포로서 첫번째로 본격적으로 사용한 사람 중 한 명입니다.

 

피어슨은 어떤 사건이 정규분포를 따른다면, 평균과 분산을 알면 그 사건이 어떤 범위 내에 속할 확률을 구할 수 있다고 하였으며, 왜도(Skewness)와 첨도(Kurosis)에 대한 개념을 확립하였습니다.

 

2. 정규분포 (Normal Distribution)

(1) 확률변수

 

 정규분포의 확률변수는 연속적인 실수 값을 가집니다. 이 실수 값은 무한히 많은 값으로 이루어져 있으며, 개별적으로 구별하기 어렵습니다.

 

정규분포의 확률변수는 아래와 같이 표현합니다.

 

$$ X \backsim N(\mu, \sigma^2) $$

여기서 평균은 $\mu$, 분산은 $ \sigma^2$ 입니다.

 

(2) 확률밀도함수

 

정규분포의 확률밀도함수는 아래와 같습니다.

 

$$f(x)=\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}} , - \infty < x < \infty $$

 

이를 손으로 계산하기에는 많은 시간과 노력이 필요해 보입니다. 최근에는 통계프로그램인 R, Python 등을 이용하

여 값을 구하는 경우가 많습니다.

 

확률밀도함수를 그래프로 표현하면, 아래와 같이 종모양의 대칭인 그래프가 나옵니다.

 

 

 

 

 

왼쪽 그래프는 분산$\sigma^2$ 은 같고 평균 $\mu$ 은 다를 때를 나타냅니다.

즉, 중심위치가 다르고 퍼짐은 같은 그래프입니다.

 

 

 

 

 

 

 

 

반면 오른쪽 그래프는 분산$\sigma^2$ 은 다르고 평균 $\mu$ 은 같을 때를 나타냅니다.

즉, 중심위치가 같고 퍼짐은 다른 그래프입니다.

 

 

 

 

 

 

정규분포는 평균과 분산에 따라 다른 모양의 그래프가 나타납니다.

 

 

(3) 확률계산

 

연속확률변수 한 점에서의 확률은 0 이 나오기 때문에 확률계산은 구간으로만 할 수 있습니다. 

 

 

$$ P(a < x < b) = \int_{a}^{b} f(x)dx = \int_{a}^{b} \frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}} dx $$

 

2. 표준정규분포(Standard Normal Distribution)

 

 

(1) 표준화

 

표준정규분포(Standard Normal Distribution) 는 평균이 0이고 분산이 1일 정규분포를 말합니다.

이 분포는 다른 정규분포를 표준화(standardize) 하는데 사용합니다.

표준화란 어떤 분포의 값을 평균으로부터 얼마나 떨어져 있는지를 나타내는 표준편차의 개념으로 변환하는 것입니다.

평균을 $\mu$, 분산을 $ \sigma^2 $ 이라 할 때, 아래의 식을 통하여 표준화할 수 있습니다.

$$ z = \frac{x-\mu}{\sigma} $$

 

표준화를 통해 서로 다른 평균과 분산을 가지는 여러 정규분포를 표준적인 비교가 가능하고, 이를 이용해 다른 확률분포와의 연관성을 파악하는 등 다양한 분석에 활용할 수 있습니다.

 

표준정규분포의 확률값은 표준정규분포표에서 직접 확인할 수 있으며, 이를 이용해 확률값을 추정하는데에도 활용됩니다.

 

표준정규분포는 아래와 같이 표현합니다.

 

$$ Z \backsim N(0 , 1) $$

 정규분포에서 $\mu = 0$ 이고 $ \sigma^2 = 1$ 인 경우입니다.

 

 

(2) 확률밀도함수

 

표준정규분포의 확률밀도함수는 정규분포 확률밀도함수에 $\mu=0 , \sigma=1$ 을 넣어 아래와 같이 나옵니다.

 

$$f(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} , - \infty < x < \infty $$

 

정규분포 확률밀도함수에 비해 비교적 단순한 식으로 바뀌어 진 것을 알 수 있습니다.

 

 

(3) 확률계산

 

$$ P(a < x < b) = \int_{a}^{b}f(x)dx = \int_{a}^{b}\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx $$

 

표준정규분포의 확률계산은 표준정규분포표를 사용해 계산하기도 합니다.

 

통계프로그램을 사용할 수 없을 때, 표준정규분포표는 유용하게 사용할 수 있습니다.

 

3. 정규분포의 성질

 

(1) 정규분포의 표준화

 

 확률변수 X의 평균이 $\mu$ 이고, 표준편차가 $\sigma (\sigma>0) $인 경우

 

$$ Z = \frac{x-\mu}{\sigma} $$

 

이 때 Z 는 표준화된 확률변수 입니다.

따라서, $E(Z) = 0 , Var(Z) = 1, SD(Z) = 1$ 입니다.

정규분포의 모수는 평균과 분산입니다.

 

(2) 선형 변환된 정규확률변수도 정규분포를 따릅니다. 

 

 $X \backsim N(\mu,\sigma^2) $ 일 때 $aX+b$ 는 정규분포를 따릅니다.

 

앞서 확률변수의 성질에서

 

$$ E(aX+b) = a\mu + b , Var(aX+b) = a^2\sigma^2 $$임을 알 수 있습니다.

 

따라서, $aX+b \backsim N(a\mu , a^2\sigma^2) $ 인 정규분포를 따릅니다.

 

이 성질을 이용해서 표준화하거나 다시 정규분포로 변환하거나 할 수 있습니다.

 

$$ Z \backsim ~ N( 0,1 ) → X=\sigma Z + \mu \backsim \backsim N(\mu, \sigma^2) $$$$ X \backsim ~ N(\mu, \sigma^2) → Z = \frac{X-\mu}{\sigma} \backsim N(0,1)$$

 

(3) 두 정규확률변수의 선형 결합도 정규분포를 따릅니다.

 

$$ X_1 \backsim N(\mu_1, \sigma_1^{2}) 이고, X_2 \backsim N(\mu_2, \sigma_2^{2}) 이면, $$

$$ X_1 \pm X_2 \backsim N( \mu_1+\mu_2 , \sigma_1^2+\sigma_2^2 \pm 2\sigma_{12}) $$

 

만약 두 정규확률변수가 독립이면, 공분산이 0 이므로,

$$ X_1 \pm X_2 \backsim N( \mu_1+\mu_2 , \sigma_1^2+\sigma_2^2 ) $$

 

따라서, 두 정규확률변수가 정규분포를 따르고 공분산이 0 이면, 두 정규확률변수는 독립입니다.