생각 작업실 The atelier of thinking

평균의 다양한 얼굴 본문

생각노트

평균의 다양한 얼굴

knowledge-seeker 2024. 11. 11. 21:43

31일차

 

평균의 다양한 얼굴

 

가만히 있으면 중간은 간다.”

 

이 말이 내포하는 의미는 무작정 가만히 있거나 침묵하고 있으라고 하는 것이 아니라 "말과 행동은 신중히 해라", "경거망동 하지 마라" 같은 뜻에 가깝다. 한마디로 설치지 말라는 것이다.  

그리고 이 말에서 중간평균이라는 개념을 함축적으로 나타낸다. 사회에서 많은 사람이 바삐 움직이며 각자의 목표를 추구하지만, 결국 다수가 모이는 지점은 언제나 평균으로 수렴하게 된다. 통계학에서 평균은 단순히 데이터 집합의 중심을 대표하는 수치에 불과할 수 있지만, 실제로는 그 이상의 의미를 지닌다. 평균은 우리가 관찰하는 데이터의 분포를 이해하고, 다양성을 평가하며, 편차와 변동을 설명하는 데 중요한 역할을 한다.

 

평균: 합을 개수로 나눈 값

 

초등학교 5학년 수학 교과서에는 평균과 가능성이란 단원이 있다. 평균은 초등학생도 알고 있을 정도로 매우 쉽고 간단한 통계량이다. 통계량이란 표본의 몇몇 특징을 수치화한 값이다. 평균은 대표적인 통계량이다.

평균을 구하는 수식은 아래와 같이 나타낸다.

 

$$ \bar{x} = \frac{x_1+x_2+ ...  + x_n}{n} = \frac{1}{n} \sum_{i=1}^n x_i $$

 

수식을 보면 왠지 복잡한 느낌이 들기도 하지만, 관측치($x_i$)의 합을 관측치의 개수($n$)로 나눈 값을 나타낸다. 이것은 가장 일반적으로 사용하는 산술평균이다. 

 

 대표성

 

평균(mean)은 자료의 총합을 자료의 개수로 나눈 값으로 간단해 보인다. 하지만, 평균이 가지는 의미는 자료의 대푯값이다. 어떠한 집단에 대한 자료를 요약하여 대표성을 나타낸다.  아이가 집에 와서는 이번 중간고사 수학 성적이 우리 반이 1등이래.” 라고 했을 때, 어떠한 기준으로 반별 성적을 비교했을까? 아마도 각 반의 평균을 비교했을 것이다. 평균은 자료의 대푯값, , 자료의 중심을 간단히 하나의 값으로 표현한 것이다. 반 아이들이 얻은 점수의 합을 반 아이들 수로 나눈 값을 대표로 하는 것이다. 만약 기준을 100점을 맞은 학생수로 했다면, 그 학생수가 가장 많은 반을 1등이라 인정할 수 있을까?

 

평균의 친구: 중앙값, 최빈값

 

평균이 항상 대표성을 가지지는 못한다. 이상점에 영향을 많이 받는다. 이상점이란 다른 값들에 비해 지나치게 크거나 작은 관측치를 말한다. 예를 들어 6명의 수학 점수가 각 70,80,90,80,70,90을 받았을 때 6명의 수학 점수 평균은 80이다. 하지만, 1명이 성적이 부정 행위로 0점 처리가 되어서 80점이 0점으로 대체되면 평균은 67점으로 13점이 떨어지는데, 이 때의 평균 67점은 다른 학생들의 성적을 대표한다고 할 수 없다.

 

이러한 이상점에 영향을 피하기 위해 대체 할 수 있는 것이 중앙값이 있다. 데이터 값을 오름차순 혹은 내림차순으로 정렬했을 때 가운데에 위치한 값을 말한다. 데이터 갯수가 짝수이면 가운데 숫자 2개의 평균으로 정한다. 가장 많이 사용하는 중심위치 통계값은 평균이지만, 이상점의 영향을 받을 때에는 중심위치 통계값으로 중앙값을 사용하기도 한다.

 

최빈값이란 자료중 빈도가 가장 많은 값을 말한다. 최빈값은 여러 개 나올 수 있고 연속자료의 경우에는 최빈값은 없을 수도 있다.

 

 평균: 다른 통계량을 도출하는 기초

 

평균의 역할은 중심 위치를 나타내는 대표성이다. 그리고 평균은 기술통계뿐만 아니라 추론통계에서 사용하는 다양한 검증 통계량의 가장 기초적인 개념 및 원리 역할을 담당한다. 예를 들어, 분산(variance)은 데이터가 평균에서 얼마나 멀리 떨어져 있는지를 측정하는 지표이고, 표준편차도 평균을 기준으로 데이터의 분포를 설명한다. 즉, 평균이 모든 데이터 분석의 출발점이 된다고 볼 수 있다.

 

추론통계의 하나인 분산분석은 집단 간 평균 차이를 비교하는 분석 방법이다. 여기서 각 집단의 평균이 실험 그룹 간 차이를 발견하는 데 중요한 지표로 사용된다. 분산분석의 기본 아이디어는 "평균 간의 차이가 통계적으로 유의미한가"를 묻는 것으로, 평균이 분석의 중심적인 역할을 한다.

 

회귀 분석에서도 평균은 중요한 역할을 한다. 회귀의 목표는 주어진 데이터를 가장 잘 설명하는 직선, 즉 평균 경향선을 찾는 것이다. 또한, 많은 머신러닝 모델이 평균 제곱 오차(MSE) 같은 지표로 모델 성능을 평가하기 때문에, 평균이 모델의 정확도를 평가하는 데 기초가 된다.

 

통계분석은 평균으로 부터

 

평균을 자료의 총합을 자료의 개수로 나눈 값이다. 또한 중심위치를 나타내는 대푯값이기도 하다. 이렇게만 평균을 이해한다면 아쉬움이 남는다. 평균에 대한 이해는 통계적 사고의 기초를 형성하게 만든다. 나아가 평균을 정확히 이해하는 것은 향후 더 깊이 있는 통계 분석과 연구에서 큰 도움이 될 것이다. 고급 통계분석에 속하는 분산분석, 회귀 분석의 출발점은 평균에서 시작한다. 심지어 머신러닝 모델의 평가에서도 평균 제곱 오차(MSE)와 같은 지표로 모델 성능을 판단할 수 있게 한다. 여기서도 평균이 자리잡고 있다.

 

통계분석의 시작은 평균으로 부터라고 해도 과언은 아닐 것이다.

 


◈ 참조 : 수치자료의 중심 - 평균, 중앙값, 최빈값

 

2023.08.30 - [통계학 이야기] - 15. 수치 자료의 중심 - 평균, 중앙값, 최빈값

 

15. 수치 자료의 중심 - 평균, 중앙값, 최빈값

일변량 자료 요약  (1) 수치형 - 평균, 중앙값, 최빈값, 분산, 표준편차, 범위, 분위수 등 (2) 범주형 - 도수분포표 (빈도수, 백분율)다변량 자료 요약 (1) 수치형 - 공분산, 상관관계 (2) 범주형 -

thinking-atelier.tistory.com