일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 경제학
- 확률
- 분산분석
- 반복있음
- 변량효과모형
- 데이터 과학
- 인공지능
- 통계학
- r
- 반복없음
- 이원배치 분산분석
- 해운업
- 산점도
- 글쓰기
- 고정효과모형
- 에세이
- 오블완
- JavaScript
- version 1
- version 2
- 혼합효과모형
- html
- 가설검정
- css
- 정규분포
- 티스토리챌린지
- 변동분해
- 이항분포
- 회귀분석
- 추정
- Today
- Total
생각 작업실 The atelier of thinking
22. 수치자료의 형태 - 왜도, 첨도 본문
Chapter 22. 수치자료의 형태 - 왜도, 첨도
1. 분포의 형태
많은 통계분석 방법은 모집단이 중심위치를 기준으로 대칭(symmetric)이라고 가정합니다. 즉 자료의 분포형태가 정규분포를 따른다고 가정합니다.
분석방법의 적절성은 가정한 조건을 자료가 얼마나 만족하고 있는지에 따라 영향을 받습니다.
자료의 분포 형태에 대한 측도, 자료가 모집단의 가정을 만족하는지에 확인이 필요한데, 여기에 사용하는 것이 왜도와 첨도이다.
왜도는 데이터의 분포가 얼마나 비대칭인지를 측정하는 지표입니다.
첨도는 데이터 분포의 꼬리부분이 얼마나 뾰족한지를 측정하는 지표입니다.
이렇게 데이터의 분포를 측정하고 이해하는 것은 더 정확하고 신뢰할 수 있는 데이터 분석을 위한 중요한 단계입니다. 데이터의 분포 형태에 따라 어떤 통계분석 방법을 선택할지 결정할 수 있기 때문입니다.
정리하면, 왜도와 첨도를 통해 데이터의 분포를 정확하게 이해하고 통계분석에 적절한 방법을 선택함으로써 신외할 수 있는 데이터 분석을 수행할 수 있습니다.
2. 왜도(Skewness)
왜도란 자료가 대칭적으로 분포되어 있는지, 한쪽으로 기울어져 있는지에 대한 측도를 말합니다.
위 히스토그램은 분포의 모양은 다르지만, 모두 평균이 0, 표준편차가 1입니다.
비대칭을 나타내는 정도를 수치로 표현하여 측정하는 방법을 Karl Pearson 이란 통계학자가 고안했다고 합니다.
그래서 피어슨 왜도라고 하기도 하며, 수식으로 아래와 같이 나타냅니다.
3 제곱이므로 평균보다 작으면 음수, 크면 양수로 나타나게 됩니다.
또한 평균에서 멀어질수록 큰 음수나 큰 양수로 나타나게 됩니다.
따라서 위 중앙 그림처럼 좌우가 비슷한 형태를 가진다면 음수와 양수가 상쇄되어 값은 0 근처가 나옵니다.
위 왼쪽 그림처럼 오른쪽 꼬리가 길면, 큰 양수값을 가지게 됩니다. 즉 대칭인 0 보다 큰 값을 가지게 됩니다.
이를 양의 왜도(positive skewness, skewed to the right) 라고 합니다.
반면 위 오른쪽 그림처럼 왼쪽 꼬리가 길면, 큰 음수값을 가지게 됩니다. 즉 대칭인 0 보다 작은 값을 가지게 됩니다.
이를 음의 왜도(negative skewness, skewed to the left) 라고 합니다.
3. 첨도(kurtosis)
첨도란 양쪽꼬리가 얼마나 두터운지를 나타내는 값을 나타냅니다.
위 히스토그램은 분포의 모양은 다르지만, 모두 평균이 0, 표준편차가 1입니다.
첨도를 수치로 표현한 것 역시 Karl Pearson이 고안했다고 합니다.
평균에서 멀어질수록 큰 값을 나타냅니다.
분포의 중심보다는 꼬리부분이 얼마나 두터운지에 따라 영향을 많이 받습니다.
정규분포의 경우 이론적으로 첨도는 3을 나타냅니다. 따라서 아래와 같이 3을 빼는 형태로 사용하기도 압니다.
첨도가 크다는 것은 이상점이 있을 가능성이 높다는 것을 의미합니다.
위 히스토그램에서 중앙 그림의 첨도는 3에 가깝게 나타납니다. 왼쪽그림은 3보다 작은 값 오른쪽 그림은 3보다 큰 값이 나타납니다.
4. 왜도와 첨도의 활용
왜도와 첨도는 데이터의 분포를 설명하고 특성을 파악하는데 사용되며, 다음과 같은 방법으로 활용할 수 있습니다.
(1) 분포의 특성 이해
왜도와 첨도를 통해 데이터의 분포 특성을 간단하게 이해할 수 있습니다. 왜도는 분포의 비대칭정도를 나타내므로 데이터가 왼쪽으로 치우쳐 있는지 혹은 오른쪽으로 치우쳐 있는지 알 수 있습니다.
(2) 이상치 탐지
극단적인 이상치가 있는지를 파악할 수 있습니다. 특히 첨도는 꼬리의 두께를 보여줌으로써 이상치를 탐지하는데 도움이 됩니다.
(3) 분포 비교
다양한 데이터 집단의 왜도와 첨도를 비교하여 각 데이터 집단의 분포가 어떻게 다른지 알 수 있습니다.
(4) 통계적 분석에 활용
통계분석에서 데이터의 정규성을 확인하거나 적절한 통계 모델을 선택하는데 활용됩니다. 정규성 검정 등에 사용하여 적절한 분석 방법을 선택할 수 있습니다.
(5) 데이터 전처리
왜도와 첨도를 통해 데이터의 분포를 이해하고, 데이터 전처리 시 필요한 변환을 식별하는 데 사용됩니다. 예를 들어, 왜도나 첨도를 줄이기 위해 로그 변환 등을 적용할 수 있습니다.
결론적으로 왜도와 첨도의 활용은 올바른 데이터 분석을 위한 것이라 할 수 있습니다.
'통계학 이야기' 카테고리의 다른 글
24. 범주형 자료 요약 (0) | 2023.09.21 |
---|---|
23. R을 이용하여 왜도, 첨도 구하기 (0) | 2023.09.19 |
21. R을 이용한 표준화 - 표준점수 구하기 (0) | 2023.09.15 |
20. 수치자료의 형태 - 정규분포 (0) | 2023.09.13 |
19. R을 이용한 수치자료의 산포 구하기 (0) | 2023.09.11 |