생각 작업실 The atelier of thinking

확률은 혼란 속에 빛을 찾아가는 지도 본문

생각노트

확률은 혼란 속에 빛을 찾아가는 지도

knowledge-seeker 2024. 11. 26. 18:50

37일차

 

확률은 혼란 속에 빛을 찾아가는 지도

 

우리가 사는 세상은 불확실성으로 가득 차 있다. 코로나 19는 세상 누구도 예측할 수 없었고, 어느 수험생도 대학 수학 능력 시험의 난이도를 미리 알 수는 없다. 불확실성을 없애는 것은 사실 불가능하다. 차라리 불확실성을 받아들이고 대비하는 것이 훨씬 좋은 방법이다. 불확실성을 관리하려면 먼저 측정을 할 수 있어야 한다. 이런 불확실성을 측정하는데 쓰이는 도구가 확률이다. 확률은 불확실성을 수치화 한다. 수치화를 통해 측정을 할 수 있다. 확률은 데이터 과학의 핵심이다. 데이터를 통해 사건의 확률을 구하고 이를 기반으로 준비하는 것이 불확실성을 극복하는 방법이다. 

 

확률과 통계

 

 

 

확률은 통계와 함께 다닌다. 고등학교에서 배우는 "확통"과목, 즉 "확률과 통계" 는 왜 함께 다뤄질까? 통계는 데이터를 이해하고 분석하는 방법이고, 확률은 불확실성을 다루는 수학적 도구이다. 확률은 수학의 영역이라 통계학을 공부할 때 이 부분을 만나면 어렵다는 느낌을 지울 수 없다. 하지만 확률을 빼고 통계 분석을 완성할 수 없다. 확률은 통계를 완성시켜주는 도구이다. 이것이 이 둘이 함께 다뤄지는 이유다.

 

 

통계학은 모집단의 특성을 파악하기 위해 표본을 추출하여 이를 분석하여 모집단에 대한 특성을 추론한다. 모집단 전체를 분석하는 것이 아니기 때문에 100% 정확하다 말할 수 없다. 이를 불확실성이라 말한다. 확률은 이 불확실성을 수량화(수치화)하는 방법 중 하나이다. 확률은 어떤 사건이 일어날 가능성의 정도를 나타내는 숫자이다. 0과 1 사이의 값을 가진다. 이론적으로 0에 가까울수록 일어날 가능성이 낮고, 1에 가까울수록 일어날 가능성이 높다. 이처럼 확률의 역할은 불확실한 사건을 수치화를 통하여 통계학적인 분석을 가능하게 한다. 

 

예를 들어, 동전을 던졌을 때 앞면이 나올 확률은 얼마일까? 우리는 0.5라고 다들 알고 있다. 그렇다면 실제로 동전 던지기를 50번 시행할 때 과연 앞면이 정확히 25번이 나올까?

 

그럴 확률은 100%는 아니다. 동전을 던지는 실험을 반복하면 결과는 앞면이 23번이 나올 수도, 27번이 나올 수도 있다. 정확히 맞추는 것은 힘들지만, 예측 가능한 범위를 정할 수 있다. 우리는 범위를 정할 때 먼저 중심위치를 찾는다. 이 중심위치는 주로 평균을 사용한다. 이 실험의 중심위치는 25번으로 정하게 된다. 중심 위치를 기준으로 얼마나 떨어져 있는 범위를 찾기 위해 사용하는 도구는 분산과 표준편차이다. 예를 들어 앞면이 몇 번 나올지에 대한 예측을 한다고 했을 때, 구간 설정을 1~10번으로 할 것인지, 20~29번으로 할것인지 묻는다면 어느 구간을 선택할 것인가? 동전의 앞면이 몇 번이 나올지는 알 수 없다. 이러한 상황에서 선택의 기준이 되는 것은 확률이다. 위 두 경우의 확률이 각각 10%, 90%라고 한다면, 일반적인 경우 확률 90%인 20~29번 구간을 선택할 것이다.  이처럼 확률은 불확실성을 수치화하여 통계적 분석을 가능하게 한다.

 

혼란 속에서 빛을 찾아가는 지도라 할 수 있다.

 

평균, 분산, 확률: 통계학의 삼두마차

 

평균, 분산, 확률은 통계학에서 기초 중의 기초다. 평균과 분산은 데이터를 요약하는 기초로서 이를 이해하면 데이터의 구조를 파악할 수 있다. 확률은 데이터의 미래와 불확실성을 설명하며 예측과 추론의 도구를 제공하여 데이터 분석을 완성한다. 빌딩을 지을 때 기초 공사가 탄탄해야 높이 올려도 흔들림이 없듯이, 통계학 공부에서도 평균, 분산이라는 기초 개념을 확실히 이해한다면, 통계학의 절반을 완성한 것과 같다. 더불어 확률을 확실히 이해한다면 통계학의 대부분을 이해하는데 어려움이 없을 것이다. 이 세 가지 개념만 제대로 이해해도 복잡한 통계학 이론과 실무적 젹용의 대부분을 다룰 수 있을 것이다.