일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 오블완
- 반복있음
- 변동분해
- 가설검정
- r
- 통계학
- 티스토리챌린지
- 데이터 과학
- 인공지능
- 경제학
- css
- 추정
- 분산분석
- 에세이
- html
- 변량효과모형
- 모평균에 대한 통계적추론
- 글쓰기
- 두 평균의 비교
- 산점도
- 확률
- 이원배치 분산분석
- 반복없음
- version 1
- 회귀분석
- JavaScript
- 고정효과모형
- 정규분포
- 혼합효과모형
- 이항분포
- Today
- Total
생각 작업실 The atelier of thinking
확률 곡선 위의 세상: 평균과 분산으로 그려내 정규분포 본문
38일차
확률 곡선 위의 세상: 평균과 분산으로 그려내 정규분포
정규분포(Normal Distribution) 란
평균, 분산, 확률은 통계학의 기초이며, 이 3가지 개념만 확실히 이해한다면 통계학의 대부분을 이해할 수 있을 것이라 말했다. 이것을 증명할 첫번째 근거가 지금부터 소개할 정규분포다. 정규분포는 평균을 중심으로 좌우 대칭(Symmetric)인 종모양(bell-shaped)의 곡선으로 봉우리가 하나(Single-peaked)라는 특징을 가지고 있다.
정규분포는 평균과 분산, 확률의 개념이 조화를 이루어 정의할 수 있다.
정규분포는 대칭형 종 모양의 분포로, 중심 위치를 결정하는 값이 평균이다. 평균은 데이터의 중심으로 나타내며, 정규분포에서는 곧 데이터가 가장 밀집된 위치를 의미한다. 평균값을 기준으로 좌우가 대칭을 이루며, 데이터가 평균에서 멀어질스록 발생 빈도가 점점 낮아진다.
정규분포의 폭과 퍼짐 정도는 분산이나 그 제곱근인 표준편차로 결정된다. 분산이 작을수록 분포는 평균 주변에 밀집되고, 분산이 클수록 분포가 넓게 퍼집니다. 이는 데이터가 평균으로부터 얼마나 흩어져 있는지를 나타낸다. 위 정규분포곡선에서 보듯이 약 68%의 데이터는 평균으로 부터 +/- 1 표준편차 내에, 95%는 +/- 2 표준편차 내에 위치한다.
이렇게 평균과 분산(표준편차)으로 만들어진 정규분포를 수치화하여 통계분석을 가능하게끔 해주는 것이 확률이다. 정규분포의 곡선 아래 면적은 항상 1이다. 특정 구간의 면적은 해당 구간에서 데이터가 존재할 확률을 나타낸다. 예를 들어 평균으로 부터 +/- 1 표준편차 범위 내(초록색 빗금)의 면적은 0.68이다. 이는 이 안에 데이터가 포함될 확률은 68%라는 것을 의미한다. 이 확률을 계산하려면 정규분포 확률밀도함수를 활용하는데 요즘은 통계프로그램을 이용하여 쉽게 구할 수 있다.
왜 중요한가?
놀랍게도 많은 자연적 혹은 사회적 현상의 데이터를 살펴보면 정규분포에 가까운 형태를 띠는 경우가 많다. 정확하게 대칭이 나타나는 종모양의 형태는 아니지만 비슷하게 근사치를 보이는 경우가 많다. 이러한 이유로 정규분포는 현실 데이터의 근사적 모델로 사용한다. 특히 통계적 추론과 예측의 핵심도구로서의 역할을 한다. 가설 검정, 신뢰구간 산정, 회귀분석 등 다양한 통계 기법들이 정규분포를 기반으로 작동한다.
예를 들어, 우리가 현실에서 마주치는 정규분포로는 대표적인 것이 수능 성적 분포를 들 수 있다. 수능 성적 분포는 정확히 정규분포의 형태는 아니지만, 대체로 정규분포 형태를 보인다. 이를 기반으로 등급컷이 설정된다. 아래의 그림은 등급컷을 나타낸 것이다.
정규분포는 평균을 중심으로 대칭적인 형태를 가지며, 대부분의 값이 평균 근처에 집중되고 극단적인 값은 양 끝에 분포한다. 수능 성적도 많은 학생들이 평균 점수 근처에 몰려 있고, 상위나 하위 등급은 상대적으로 적은 수의 학생들이 분포하고 있다고 한다. 따라서 정규분포의 특성을 반영하여 수능 점수의 분포를 분석하고 이를 바탕으로 등급컷을 설정한다.
이외에도 정규분포 형태를 가지는 데이터 형태는 실생활에서 자주 발견할 수 있다. 고등학교 내에서 학생들의 키 분포를 살펴봐도 평균을 중심으로 많은 사람이 위치하고 양 끝으로 갈수록 적은 사람이 분포한다. 프로야구 타자들의 타율의 분포도 정규분포와 비슷한 분포임을 발견할 수 있다.
확률분포는 평균과 분산(표준편차) 그리고 확률이 조화된 기초적인 통계이론이다. 이 확률 분포는 통계학 전반에 자주 이용된다. 특히 추론 통계는 정규분포로 부터 시작한다해도 과언이 아니다. 즉 추론 통계의 핵심인 가설 검정이나 신뢰구간을 구할 때 T검정, 분산분석, 회귀분석 등 다양한 통계 기법에서 정규분포임을 가정하여 사용한다. 따라서 정규분포를 이해하지 못하면 통계적 추론의 많은 기법을 적용할 수 없을 것이다.
'생각노트' 카테고리의 다른 글
영화 투모로우: 이제 더 이상 영화가 아닌 다큐멘터리 (3) | 2024.12.02 |
---|---|
월말 평가 - 2024년 11월 30일 (1) | 2024.12.01 |
확률은 혼란 속에 빛을 찾아가는 지도 (0) | 2024.11.26 |
나름대로 열심히 쓰고 있어요 (0) | 2024.11.25 |
평균 너머의 진실 - 분산이 말하는 숨겨진 진실 (1) | 2024.11.21 |