생각 작업실 The atelier of thinking

평균의 한계 본문

생각노트

평균의 한계

knowledge-seeker 2024. 11. 18. 23:02

34일차

 

평균의 한계

 

버클리대는 성차별을 했을까?

 

1970년대에 버클리 대학교는 때아닌 성차별 논란에 빠진 적이 있다. 논란의 발단은 대학원 입학생 중 남학생의 합격률이 여학생의 합격률보다 높게 나오면서 시작되었다. 당시 버클리 대학원 입학 데이터를 보면 남학생들의 합격률은 45%, 여학생들의 합격률은 30% 였다. 이로 인해 성차별 논란이 불거졌다. 이 합격률 차이만 본다면 버클리 대학교에서 남학생을 보다 많이 합격시킨 것으로 보인다. 하지만 학과별로 나누어 세분하여 분석한 결과는 전혀 다른 결론에 도달한다. 아래는 6개 주요 단과 대학의 성별 대학원 입학자료이다.

 

학과 남성 여성
총지원자 합격률 총지원자 합격률
A 825 62% 108 82%
B 560 63% 25 68%
C 325 37% 593 34%
D 417 33% 375 35%
E 191 28% 393 24%
F 373 6% 341 7%
합계 2,691 45% 1,835 30%

 

전체합격률의 결과와는 달리 학과별로 살펴보면, 여학생의 합격률이 남학생와 비슷하거나 더 높게 나타난 것을 볼 수 있다. 학과별로 봤을 때에는 남성과 여성간 차별은 없다. 그렇다면 전체 합격률에서 나타난 남녀간 합격률 차이는 어디에서 온 것일까?  그것은 남녀의 학과 선택 차이 때문이다. 위 표에서 학과별 합격률을 보면 A와 B 학과의 합격률은 62~82%로 높은 반면 C, D, E, F 학과의 합격률은 6~37%로 앞선 두 학과에 비해서는 현저히 낮은 것을 볼 수 있다. 남학생들은 합격률이 높은 A, B 학과에 많이 지원한 반면에 여학생들은 합격률이 낮은 C~F 학과에 지원자가 많음을 알 수 있다. 결과적으로 합격률이 낮은 C~F학과에 지원 비율이 높은 여학생들의 경우 합격률이 낮아졌다. 반면 남학생들은 합격률이 높은 A와 B학과에 많은 지원을 한 영향으로 합격률이 높게 나타난 것이다. 학과 선택의 결과에 따라 전체 합격률과 학과별 합격률이 차이가 발생했다. 버클리 대학원 입시에 성차별은 전혀 없었다.

 

심슨의 역설(Simpson's Paradox)

 

데이터의 세부 그룹별로 일정한 추세나 경향성이 나타나지만, 전체적으로 보면 그 추세가 사라지거나 반대 방향의 경향성이 나타나는 현상을 심슨의 역설(Simpson's Paradox)라고 한다. 앞서 본 버클리 대학 사례는 전체 데이터의 평균이 개별 집단의 평균과 상반되는 결론을 내렸다. 심슨의 역설은 평균이 데이터의 세부 구조를 숨길 수 있음을 보여준다. 이는 제3의 변수(교란 변수)가 평균 계산에 영향을 미칠 때 발생한다. 위 버클리 대학 사례에서는 학과 선택이 교란 변수다.

 

버클리대 성차별 논란은 심슨의 역설이 데이터를 왜곡할 수 있음을 알려준다. 전체 데이터의 평균은 학과 선택이라는 교란 변수의 영향을 반영하지 않아 잘못된 결론(성차별)을 이끌어냈다. 이는 학과별 세부분석을 통하여 해결할 수 있었다. 즉, 데이터를 계층화하여 분석하면 데이터의 숨겨진 맥락을 이해할 수 있다.

 

평균의 한계

 

평균은 데이터를 요약하고 대표하는 강력한 도구이다. 하지만 심슨의 역설은 평균이 한계를 보이는 대표적인 사례이다. 평균의 한계는 심슨의 역설 이외에도 이상점(outlier)이 존재할 때 역시 나타난다.

 

이상점은 평균을 왜곡시킨다

 

이상점(outlier)은 데이터 집합의 값 중에서 다른 값들과 동떨어져 있는 값이다. 평균을 구할 때 이상치가 포함되면 평균값이 크게 영향을 받는다. 평균은 모든 값을 더한 뒤 나누는 방식으로 계산되기 때문에 이상점에 매우 민감하다. 예를 들어 한 회사내 5명 직원 연봉이 각각 4천만원, 5천만원, 6천만원, 5천만원, 5천만원이라 했을 때 이 5명의 평균은 5천만원이다. 하지만 연봉 3억원을 받는 회사 CEO를 추가하여 6명의 평균을 구하게 되면 9천만원이 넘게 나온다. 6명 중 5명의 평균 연봉은 5천만원 이지만 하나의 이상점이 추가되어 평균이 9천만원의 높은 연봉인 것처럼 보이게 된다. 실제 데이터를 왜곡하고 있는 것이다.

 

이와 같이 이상점으로 인한 평균의 한계를 해결하기 위해 자주 사용하는 방법은 중앙값을 사용하는 것이다. 중앙값은 오름차순 혹은 내림차순으로 데이터를 정렬한 후 중앙에 있는 값을 대표값으로 정하는 것이다. 중앙값은 이상점이 포함된다고 해도 영향받지 않는다. 

 

평균의 한계와 해결 방안

 

평균은 심슨의 역설과 이상점 등의 한계를 가지고 있다. 하지만 평균은 데이터 중심을 가장 잘 나타낼 수 있는 통계량이다. 한계가 있다고 포기할 수 있는 존재가 아니다. 평균의 한계를 분명히 인지하고, 평균을 보완할 수 있는 다른 통계 지표와 분석 기법을 함께 활용하는 것이 필요하다. 중앙값, 절사 평균, 가중 평균, 하위 집단으로 나누어 분석하는 방법 등이 대표적인 방법이다. 이들을 함께 활용함으로 해서 보다 정확한 데이터 분석을 할 수 있을 것이다.