생각 작업실 The atelier of thinking

평균 너머의 진실 - 분산이 말하는 숨겨진 진실 본문

생각노트

평균 너머의 진실 - 분산이 말하는 숨겨진 진실

knowledge-seeker 2024. 11. 21. 22:40

35일차

 

평균 너머의 진실 - 분산이 말하는 숨겨진 진실

 

평균과 분산 : 데이터를 이해하는 열쇠

 

우리가 살아가는 세상은 수많은 데이터로 이루어져 있다. 학교 시험 점수, 날씨 정보, 스포츠 기록, 심지어 소셜 미디어에서 받은 좋아요 개수까지 모두 데이터이다. 이러한 데이터를 어떻게 이해하고 활용할 수 있을까? 통계학에서는 평균과 분산이라는 두 가지 개념이 데이터를 해독하는 열쇠 역할을 한다.

 

데이터가 아무리 많다고 해도 적절한 처리를 하지 않은 것은 아무런 의미 없는 숫자들의 나열에 불과하다. 통계학에서 데이터 요약을 위해 실행하는 방법은 중심 위치를 찾는 것이다. 그 중 가장 흔하게 사용하는 것이 평균이다. 하지만 중심값으로 모집단의 특성을 다 나타낼 수는 없다. 데이터는 한 곳에 모여있지 않고 퍼져있기 때문이다. 통계학의 중요한 역할은 퍼짐(산포, dispersion)이 있는 데이터에 대해 설명이나 예측을 하는 것이다. 여기서 '퍼짐'이란 데이터에 포함된 값 하나하나의 차이를 말한다. 데이터의 퍼짐 정도가 클수록 통계학은 힘을 발휘한다. 분산은 퍼짐 정도를 나타내는 대표적인 도구이다.

 

분산(Variance)은 데이터가 평균을 기준으로 얼마나 퍼져 있는지를 나타내어, 데이터의 변동성과 다양성을 정량적으로 측정한다. 이를 통해 평균만으로는 알 수 없는 데이터의 특성과 안정성을 파악할 수 있다. 

 

분산의 역할은 데이터를 설명할 때 평균으로는 부족한 부분을 채워준다.

 

아래의 그림은 평균은 같지만 분산이 다른 정규분포 그래프이다. 이 두 모집단은 평균이 같다. 하지만 같은 특성을 가졌다고 말할 수는 없을 것이다.

 

 

 예를 들어 두 반의 수학 시험 평균 점수가 모두 85점이다. 한 반은 점수가 80~90점 사이에 고르게 분포되어 있고, 다른 반은 60점과 100점으로 극단적으로 나뉘어 있어도 평균은 같다. 디 두 반은 평균은 같지만 데이터 분포의 특성은 다르다. 분산이 다르다.

 

평균은 데이터의 중심 위치를 나타내지만, 데이터가 그 중심에서 얼마나 흩어져 있는지에 대한 정보는 제공하지 않는다. 이것이 분산이 필요한 이유다.

 

통계학의 절반은 평균과 분산

평균은 데이터들의 합을 데이터의 갯수로 나누어 구하고, 분산은 데이터와 평균의 차이를 제곱한 값들의 합을 데이터의 갯수로 나누어 구한다.

 

$$ \bar{x} = \frac{\sum_{i=1}^n x_i}{n}$$

$$ \sigma^2 = \frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n} $$

 

언뜻보면 간단한 수식이라 생각할 수 있다. 하지만, 통계학을 잘 활용하기 위해서는 평균과 분산의 개념을 확실히 아는 것이 필수적이다. 평균은 중심 위치를, 분산은 퍼짐의 정도를 보여 주는 척도이다. 이 둘은 통계학의 기초이자 모든 분석의 출발점으로 데이터를 요약하고 비교하며, 숨겨진 패턴을 파악하는데 핵심적인 역할을 한다. 평균과 분산을 정확히 이해하면 복잡한 통계이론도 쉽게 접근할 수 있다.

 

건물을 지을 때 기초 공사를 튼튼히 해야 하듯이, 통계학에서도 평균과 분산이라는 기초 개념을 잘 이해하고 있다면 통계학 이론의 절반을 설명할 수 있을 것이다. 평균과 분산으로 이루어진 대표적인 사례로 확률 분포가 있다. 확률분포는 데이터가 어떻게 퍼져 있는지를 나타내는 것으로 평균과 분산을 통해 정의된다. 확대해 보면 AI 모델 중 머신러닝에서 모델 최적화에서도 평균과 분산을 기반으로 데이터의 특성을 파악한다. 이렇듯 많은 통계학 이론은 평균과 분산의 조합으로 이루어져 있다고 해도 과언이 아니다.