생각 작업실 The atelier of thinking

정규분포를 넘어: 왜도와 첨도로 보는 현실 데이터의 모습 본문

생각노트

정규분포를 넘어: 왜도와 첨도로 보는 현실 데이터의 모습

knowledge-seeker 2024. 12. 3. 11:57

41일차

정규분포를 넘어: 왜도와 첨도로 보는 현실 데이터의 모습

 

통계학 공부를 하다보면 낯선 용어들을 자주 만나는데 그 중에 정규분포와 함께 왜도skewness)와 첨도(kurtosis)가 있다. 통계분석에서 정규분포를 가정하는 경우가 많지만, 실제 데이터는 대칭적이지 않다. 그렇기 때문에 보다 정확한 분석을 위해서는 정규분포를 도와주는 추가적인 도구가 필요하다. 

 

왜도는 데이터의 분포가 얼마나 비대칭인지를 측정하는 지표이다.

비대팅을 나타내는 정도를 수치로 표현하여 측정하는 방법을 Karl Pearson 이란 통계학자가 고안했다고 한다. 피어슨 왜도라고도 하는데 구하는 수식은 아래와 같다.

 

$$\sqrt{b_1}=\frac{1}{n-1}\sum_{i=1}^n \left( \frac{x_i-\bar{x}}{s} \right)^3$$

 

평균에서 멀어질수록 큰 음수나 큰 양수로 나타난다.

좌우가 비슷한 형태를 가진다면 음수와 양수가 상쇄되어 값은 0 근처가 나온다.절대값 3 이하면 정규분포로 간주한다.

오른쪽 꼬리가 길면 큰 양수값을 가지게 되고 0보다 큰 값을 가진다. 이를 양의 왜도라고 한다.

반대로 왼쪽꼬리가 길면 큰 음수값을 가진다. 0보다 작은 값을 가진다. 이를 음의 왜도라고 한다.

 

 

첨도는 데이터 분포의 꼬리부분이 얼마나 뾰족한지를 측정하는 지표이다. 이것을 통해 자료 속의 이상점이 얼마나 이상한 지를 요약하는 모수다.

이것 역시 칼 피어슨(Karl Pearson)이 고안했다고 한다. 

 

$$ b_2=\frac{1}{n-1}\sum_{i=1}^n \left( \frac{x_i-\bar{x}}{s} \right)^4$$

 

평균에서 멀어질수록 큰 값을 나타낸다. 분포의 중심보다는 꼬리부분이 얼마나 두터운지에 따라 영향을 많이 받는다.

정규분포의 경우 이론적으로 첨도는 3을 나타낸다. 첨도 값이 8까지는 정규분포로 간주하는 것이 일반적 기준이다.

첨도가 크다는 것은 이상점이 있을 가능성이 높다는 것을 의미한다.

 

보다 정확한 데이터 분포를 정확하게 이해하기 위해 필요한 도구가 왜도와 첨도이다.

 

 

왜도의 사례 - 소득 분포

예를 들어, 한 국가에서 연봉이 낮은 근로자가 전체의 80%를 차지하고, 상위 20%의 고소득자가 전체 소득의 50% 이상을 차지한다고 가정해 보자. 이 경우 평균 소득은 전체 소득을 모든 사람으로 나눈 값이므로, 상위 소득자의 영향을 받아 상당히 높은 수치로 나타난다. 하지만 이는 일반적인 근로자의 소득수준과 차이가 많이 난다. 평균만을 보면 국민들이 모두 잘 사는 것처럼 보이지만, 실제로는 많은 사람들이 낮은 소득으로 생활하고 있는 것이다. 이처럼 양의 왜도는 평균만으로 파악하기 어려운 소득 불평등의 구조를 드러낸다. 왜도 분석으로 단순히 소득 분포의 형태를 이해하는 데 그치지 않고, 실질적인 정책 설계에 중요한 단서를 제공한다. 세금 정책에서 누진세를 통해 고소득자의 세금 부담을 늘리는 정책이 적합할 수 있고, 복지 제도를 시행할 때 평균 소득이 아닌 중위 소득(중앙값 기준)을 기준으로 한다면 불평등한 소득 분포에서도 사회적 약자를 더 효과적으로 지원할 수 있는 지표가 된다.

 

첨도의 사례 - 이상 거래 탐지

 

금융 시스템에서의 돈세탁이나 사기 거래는 일반적인 거래 패턴과 크게 벗어난 극단값으로 나타나는 경우가 많다. 예를 들어, 하루 거래량이 100먼 원 이하인 계좌에서 갑자기 수억 원의 입출금이 발생하는 경우이다. 첨도가 높은 데이터는 꼬리가 두꺼운 분포를 보이며, 극단적인 거래 패턴이 포함되어 있다. 이러한 극단값을 감지하여 잠재적인 불법 거래를 탐지하는 데 사용할 수 있다. 이상 거래 탐지 시스템에 첨도 분석을 포함하면 금융범죄의 징후를 조기에 발견할 가능성이 높아진다.

낯선 곳이나 해외에서 카드를 사용하면 카드 회사로 부터 경고 문자가 오곤 한다. 이것도 첨도를 사용한 예시이다. 

 


 

정규분포는 데이터 분석의 기본 모델로 널리 사용되지만, 실제 데이터는 항상 정규분포를 따르지 않는다. 이 때 왜도와 첨도는 정규분포에서 벗어난 데이터를 이해하고 분석하는 데 중요한 역할을 한다. 왜도는 분포의 비대칭성을, 첨도는 꼬리 두께와 극단값의 가능성을 측정한다. 이를 통해 데이터의 분포 형태를 더 잘 파악하고, 정규성을 확인하거나 필요한 경우 데이터를 변환하여 적절한 통계 분석을 수행할 수 있다. 왜도와 첨도를 이해하면 정규분포 모델을 보완하고 데이터의 숨겨진 특성을 효과적으로 해석할 수 있다.