생각 작업실 The atelier of thinking

20. 수치자료의 형태 - 정규분포 본문

통계학 이야기

20. 수치자료의 형태 - 정규분포

knowledge-seeker 2023. 9. 13. 12:11

Chapter 20. 수치자료의 형태 - 정규분포

 

1. 분포의 형태

분포란 자료가 어떤 값들을 가지고 나타나는지를 보여주는 방법입니다.

자료 분포의 형태를 보면 보다 많은 정보를 얻을 수 있습니다. 따라서 분포 형태를 알아보는 것이 중요합니다.

많은 통계분석 방법은 모집단이 중심위치를 기준으로 대칭(symmetric)이라고 가정합니다.

분석방법의 적절성은 가정한 조건을 자료가 얼마나 만족하고 있는지에 따라 영향을 받습니다.

자료의 분포 형태에 대한 측도를 통하여 자료가 모집단의 가정을 만족하는지에 확인합니다.

 

2. 분포의 형태 예시

분포의 형태는 크게 대칭 분포와 비대칭 분포로 나눌 수 있습니다.

 

대칭 분포의 대표적인 것으로는 정규분포가 있습니다. 이 분포는 평균을 중심으로 좌우 대칭의 종모양를 그립니다.

비대칭 분포의 경우에는 왜도(skewness) 개념이 사용되는데, 분포의 비대칭 정도를 나타냅니다. 왼쪽으로 긴 왼쪽 비대칭 분포를 나타내는 왼쪽 치우친 분포와 오른쪽으로 긴 오른쪽 비대칭 분포를 나타내는 오른쪽 치우친 분포가 있습니다.

 

(1) 평균과 중앙값의 관계

 

 평균과 중앙값의 관계로 분포의 형태를 파악할 수 있습니다.

 

 ① 평균 = 중앙값 일때, 통상 대칭 분포가 나타납니다.

 ② 평균 > 중앙값 일 때, 오른쪽으로 길게 늘어진 분포가 나타납니다.

 

 이런 형태의 분포에 대표적인 경우가 소득의 분포를 들 수 있습니다.

1인단 GDP는 평균을 의미하고 중산층의 GDP는 중앙값에 가깝습니다. 통상 1인당 GDP는 중산층의 GDP보다 높게 나옵니다. 그 이유는 오른쪽으로 늘어지는 소수의 고소득이 평균을 높여주는 영향을 주기 때문입니다.

 

③ 평균 < 중앙값 일 때, 왼쪽으로 길게 늘어진 분포가 나타납니다.

 

 

 

3. 정규분포(Normal Distribution)

 

정규분포는 통계학에서 가장 중요하고 널리 사용되는 확률 분포 중 하나입니다. 이 분포는 대부분의 자연현상과 통계적인 데이터 분포를 모델링하는 데 사용됩니다.

 정규분포는 하나의 이상적인 히스토그램이며, 하나의 수학적 모형입니다.

 

 정규분포곡선은  평균을 중심으로 좌우 대칭(symmetric)인  종모양(bell-shaped)의 곡선으로  봉우리가 하나(Single-peaked)라는 특징을 가지고 있습니다. 정규분포는 두 개의 매개변수, 평균과 분산으로 정의됩니다. 즉 데이터의 중심과 퍼진 정도를 나타내는 데 사용되는 통계적인 그림이라 할 수 있습니다.

 

 

4. 표준화 (Standardization)

 

표준화란 기준점을 동일하게 만들어 자료들을 쉽게 비교할 수 있도록 만드는 과정입니다.

 

 

예를 들어,수능시험은 과목별로 난이도가 다를 수 있기 때문에 원점수로는 과목간 성적을 비교할 수 없습니다. 이 때 표준화 점수가 필요합니다.

 

표준화 과정을 수식으로 표현하면,

  관측값에서 평균을 뺀 값을 표준편차로 나누어 주면 표준화가 되는 것입니다.

  표준화된 자료의 평균은 0 이고 표준편차는 1 로 조정이 하는 것입니다.

 

  표준화된 자료의 평균은 아래와 같이 구할 수 있습니다.

  표준화된 자료의 분산은 아래와 같이 구할 수 있습니다.

     를 대입하여 계산하면,

       위 식에서

        따로 떼어내면, x의 분산임을 알 수 있습니다.

        따라서, 표준화된 자료의 분산은 1이고, 표준편차 역시 1 임을 알 수 있습니다.

 

이처럼, 표준화를 통하면 측정단위에 영향을 받지 않게 중심위치와 척도를 조정해 절대비교가 가능해집니다.

 

5. 표준정규분포 (standard normal distribution)

 

표준정규분포는 평균이 0이고 표준편차가 1인 정규분포를 가리킵니다.

즉, 정규분포를 표준화한 것이라 할 수 있습니다.

 

표준정규분포를 사용하는 이유는,

 

 정규분포는 평균과 표준편차의 값에 따라 분포의 형태가 달라지기 때문에, 서로 다른 평균과 표준편차를 가지는 여러 개의 정규분포를 다루기 어렵습니다. 이에 반해, 표준정규분포는 평균이 0 이고 표준편차가 1인 공통괸 분포이기 때문에, 서로 다른 평균과 표준편차를 가진 정규분포를 표준화하여 하나의 분포로 바꾸어 다룰 수 있습니다. 이를 통해 데이터를 쉽게 비교하고 분석할 수 있으며, 통계적인 분석에 있어서 편리성을 제공합니다.

 

[표준정규분포곡선의 68-95-99.7 법칙]

 * 표준단위로 -1부터 1까지 영역의 넓이 : 약 68%

 * 표준단위로 -2부터 2까지 영역의 넓이 : 약 95%

    * 표준단위로 -3부터 3까지 영역의 넓이 : 약 99.7%

 

 이말인 즉,

 데이터의 약 68%가 평균으로부터 1 표준편차(SD)이내의 역역에 존재하고, 약 95%의 데이터가 2 표준편차(SD)이내의 영역에, 약 99.7의 데이터가 3 표준편차(SD) 안에 존재한다는 의미 입니다.