일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 인공지능
- 통계학
- 이항분포
- 반복있음
- 추정
- 반복없음
- css
- 혼합효과모형
- html
- 데이터 과학
- 에세이
- 티스토리챌린지
- 변량효과모형
- 오블완
- JavaScript
- 고정효과모형
- 두 평균의 비교
- 가설검정
- version 1
- 확률
- 회귀분석
- 모평균에 대한 통계적추론
- 이원배치 분산분석
- 산점도
- r
- 분산분석
- 글쓰기
- 경제학
- 변동분해
- 정규분포
- Today
- Total
생각 작업실 The atelier of thinking
확률은 혼란 속에 빛을 찾아가는 지도 본문
37일차
확률은 혼란 속에 빛을 찾아가는 지도
우리가 사는 세상은 불확실성으로 가득 차 있다. 코로나 19는 세상 누구도 예측할 수 없었고, 어느 수험생도 대학 수학 능력 시험의 난이도를 미리 알 수는 없다. 불확실성을 없애는 것은 사실 불가능하다. 차라리 불확실성을 받아들이고 대비하는 것이 훨씬 좋은 방법이다. 불확실성을 관리하려면 먼저 측정을 할 수 있어야 한다. 이런 불확실성을 측정하는데 쓰이는 도구가 확률이다. 확률은 불확실성을 수치화 한다. 수치화를 통해 측정을 할 수 있다. 확률은 데이터 과학의 핵심이다. 데이터를 통해 사건의 확률을 구하고 이를 기반으로 준비하는 것이 불확실성을 극복하는 방법이다.
확률과 통계
확률은 통계와 함께 다닌다. 고등학교에서 배우는 "확통"과목, 즉 "확률과 통계" 는 왜 함께 다뤄질까? 통계는 데이터를 이해하고 분석하는 방법이고, 확률은 불확실성을 다루는 수학적 도구이다. 확률은 수학의 영역이라 통계학을 공부할 때 이 부분을 만나면 어렵다는 느낌을 지울 수 없다. 하지만 확률을 빼고 통계 분석을 완성할 수 없다. 확률은 통계를 완성시켜주는 도구이다. 이것이 이 둘이 함께 다뤄지는 이유다.
통계학은 모집단의 특성을 파악하기 위해 표본을 추출하여 이를 분석하여 모집단에 대한 특성을 추론한다. 모집단 전체를 분석하는 것이 아니기 때문에 100% 정확하다 말할 수 없다. 이를 불확실성이라 말한다. 확률은 이 불확실성을 수량화(수치화)하는 방법 중 하나이다. 확률은 어떤 사건이 일어날 가능성의 정도를 나타내는 숫자이다. 0과 1 사이의 값을 가진다. 이론적으로 0에 가까울수록 일어날 가능성이 낮고, 1에 가까울수록 일어날 가능성이 높다. 이처럼 확률의 역할은 불확실한 사건을 수치화를 통하여 통계학적인 분석을 가능하게 한다.
예를 들어, 동전을 던졌을 때 앞면이 나올 확률은 얼마일까? 우리는 0.5라고 다들 알고 있다. 그렇다면 실제로 동전 던지기를 50번 시행할 때 과연 앞면이 정확히 25번이 나올까?
그럴 확률은 100%는 아니다. 동전을 던지는 실험을 반복하면 결과는 앞면이 23번이 나올 수도, 27번이 나올 수도 있다. 정확히 맞추는 것은 힘들지만, 예측 가능한 범위를 정할 수 있다. 우리는 범위를 정할 때 먼저 중심위치를 찾는다. 이 중심위치는 주로 평균을 사용한다. 이 실험의 중심위치는 25번으로 정하게 된다. 중심 위치를 기준으로 얼마나 떨어져 있는 범위를 찾기 위해 사용하는 도구는 분산과 표준편차이다. 예를 들어 앞면이 몇 번 나올지에 대한 예측을 한다고 했을 때, 구간 설정을 1~10번으로 할 것인지, 20~29번으로 할것인지 묻는다면 어느 구간을 선택할 것인가? 동전의 앞면이 몇 번이 나올지는 알 수 없다. 이러한 상황에서 선택의 기준이 되는 것은 확률이다. 위 두 경우의 확률이 각각 10%, 90%라고 한다면, 일반적인 경우 확률 90%인 20~29번 구간을 선택할 것이다. 이처럼 확률은 불확실성을 수치화하여 통계적 분석을 가능하게 한다.
혼란 속에서 빛을 찾아가는 지도라 할 수 있다.
평균, 분산, 확률: 통계학의 삼두마차
평균, 분산, 확률은 통계학에서 기초 중의 기초다. 평균과 분산은 데이터를 요약하는 기초로서 이를 이해하면 데이터의 구조를 파악할 수 있다. 확률은 데이터의 미래와 불확실성을 설명하며 예측과 추론의 도구를 제공하여 데이터 분석을 완성한다. 빌딩을 지을 때 기초 공사가 탄탄해야 높이 올려도 흔들림이 없듯이, 통계학 공부에서도 평균, 분산이라는 기초 개념을 확실히 이해한다면, 통계학의 절반을 완성한 것과 같다. 더불어 확률을 확실히 이해한다면 통계학의 대부분을 이해하는데 어려움이 없을 것이다. 이 세 가지 개념만 제대로 이해해도 복잡한 통계학 이론과 실무적 젹용의 대부분을 다룰 수 있을 것이다.
'생각노트' 카테고리의 다른 글
월말 평가 - 2024년 11월 30일 (1) | 2024.12.01 |
---|---|
확률 곡선 위의 세상: 평균과 분산으로 그려내 정규분포 (1) | 2024.11.27 |
나름대로 열심히 쓰고 있어요 (0) | 2024.11.25 |
평균 너머의 진실 - 분산이 말하는 숨겨진 진실 (1) | 2024.11.21 |
평균의 한계 (0) | 2024.11.18 |