생각 작업실 The atelier of thinking

18. 수치자료의 산포 - 분산, 표준편차,분위수 본문

통계학 이야기

18. 수치자료의 산포 - 분산, 표준편차,분위수

knowledge-seeker 2023. 9. 11. 11:33

Chapter 18. 수치자료의 산포

 

1.  산포 (dispersion, 퍼짐)

 

산포란 자료들이 얼마나 퍼져 있는지를 나타내는 측도입니다. 중심위치와 더불어 일변량 수치형 자료요약의 한 축을 담당합니다.

데이터의 중앙을 나타내는 대표값과 더불어 데이터가 얼마나 퍼져 있는지 여부를 제시하는 값은 자료의 요약에 필수적인 요소입니다.

 

대표적으로 퍼짐을 나타내는 통계량은 다음과 같습니다.

  (1) 범위 : 최대값과 최소값 차이를 말합니다.

  (2) IQR : Q3 - Q1 , 여기서 Q1과 Q3는 1 사분위수(하위 50% 데이터의 중앙값)와 3 사분위수(상위 50% 데이터의 중앙값)를 말합니다.

 (3) 분산 : 각 데이터가 평균에서 떨어진 거리의 제곱에 대한 평균을 말합니다.

 (4) 표준편차 : 분산의 제곱근을 말합니다.

 

이러한 산포는 중심위치가 얼마나 안정적인지에 대한 중요한 정보를 제공합니다.

예를 들어, 자료가 조밀하게 모여있다는 것은 중심위치의 변동성이 작다는 것을 의미하고, 반면 넓게 퍼져있다는 것은 중심위치의 변동성이 커진다는 것을 의미합니다.

 

2. 범위(Range)

 

자료 중 가장 큰 값과 가장 작은 값의 차이를 말합니다.

 

 범위 = 최대값 - 최소값

 

최대값과 최소값에만 영향을 받기 때문에 자료 전체의 퍼져 있는 정도를 파악하기 어렵습니다.

 

 

3. 사분위(간) 범위(Interquartile-Range)

 

사분위수(quartile)는 자료를 동일한 비율로 4 등분 할 때의 세 위치를 말합니다.

 

자료를 오름차순으로 정렬했을 때, 아래의 세 위치를 말합니다.

  • 25% 지점 : 제 1 사분위수
  • 50% 지점 : 제 2 사분위수 = 표준중앙값
  • 75% 지점 : 제 3 사분위수

사분위(간)범위(IQR)은 제 3 사분위수와 제 1 사분위수의 차이를 말합니다.

 

IQR = Q3 - Q1

 

사분위(간)범위는 중간 50%범위를 측정하는 통계적 지료로 데이터의 중심 경향과 분포를 더 잘 이해하는 데 도움을 줍니다. 특히 상자 그림(box plot)을 그릴 때 사용할 수 있으며, 이상치(outlier)를 식별하는 데 도움이 됩니다.

 

 

4.  표본분산(Sample Variance)

 

분산은 관측값에서 중심위치(평균)를 뺀 값을 제곱하고 그것을 모두 더한 값입니다. 즉, 차이값의 제곱에 평균입니다.

 

차이값(편차)이 아닌 차이값의 제곱을 하는 이유는 차이값(편차)의 합이 0 이 나오기 때문입니다.

 

표본분산의 n개의 편차를 사용하는 것 같지만 편차의 합이 0 이라는 제약조건 때문에 n개가 아닌 n-1개의 편차 정보를 사용합니다. 이를 두고 n-1의 자유도(degree of freedom)를 가진다고 합니다.

 

자유도(degree of freedom)는 통계적 추정을 할 때 모집단에 대한 정보를 주는 독립적인 자료의 수를 말합니다.

 

표본 분산의 일반식은 아래와 같습니다.

 

5. 표본표준편차(Sample Standard Deviation)

 

표본분산은 편차의 제곱합을 이용하기 때문에 분산의 단위는 관측값 단위의 제곱이 됩니다.

눈으로 이해하는 산포와 일치하기 위해서는 자료를 측정할 때의 단위로 표시하기 위해 제곱근을 합니다.

즉, 표준편차는 분산의 제곱근한 것입니다. 분산의 경우 제곱의 합이어서 단위가 원 자료보다 크게 나타납니다. 따라서, 원자료의 단위로 환원해주기 위해서 분산에 제곱근을 한 것입니다.

 

표본표준편차의 일반식은 아래와 같습니다.

 

6. 자유도(degree of freedom)

 

자유도는 합쳐진 값들 중에서 실질적으로 독립인 값들의 개수입니다.

표준편차 계산하는 경우의 자유도는 "자료의 개수 - 1" 입니다.

표준편차 계산의 대상이 되는 편차들의 합은 0이 됩니다.

편차들의 합이 0이 된다는 하나의  제약조건이 자유도를 1만큼 감소시킨 것입니다.

 

예를들어 10개의 편차중 9개는 자유롭게 선택할 수 있지만 마지막 1개는 편차들의 합이 0이 된다는 제약조건으로 자유롭게 선택할 수 없고 정해지기 때문에 자유도가 없다는 것입니다.

 

만일 극단적으로 자료의 개수가 하나인 경우,

편차는 단 하나뿐이고 그 값은 0이 됩니다. 0에 대해 제곱의 평균을 구할 때 자유도를 고려치 않으면 0/1=0 이고 자유도를 고려하면 0/(1-1)=0/0 으로 부정형(indefinite form)이 됩니다. 단 하나의 자료만을 가지고는 퍼진 정도를 알 수 없습니다. 따라서 이 때 퍼진 정도는 0이 아니라 '알 수 없다(부정형)' 가 정답이라 할 수 있습니다. 

 

◈ 예제 : 어느 고등학교 수학 중간고사 점수 (27명)

 

   [ 98,75,46,80,76,65,90,85,75,54,68,78,84,96,44,78,78,68,92,85,77,56,70,80,84,72,73 ]

 

위 자료로 아래의 산포를 구해보겠습니다.

 

  (1) 범위 : 최대값 : 98 , 최소값 : 44

                  98 - 44 = 54

 

  (2) IQR : 1분위수와 3분위수 차이

        1분위수 : 69 , 3분위수 : 84

        IQR = 84 - 69 = 15 

        사분위수를 시각화할 때 상자그림을 많이 사용합니다.

      가운데 박스 크기가 IQR을 나타냅니다.

 

(3) 분산 : 차이값 제곱의 평균

         평균 : 75.07407

         분산 : 183.3789

 

(4) 표준편차 : 분산의 제곱근

        표준편차 : 13.54175