일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 글쓰기
- 회귀분석
- 두 평균의 비교
- 반복있음
- 혼합효과모형
- 오블완
- version 1
- 정규분포
- 데이터 과학
- 이항분포
- 고정효과모형
- JavaScript
- css
- 통계학
- 티스토리챌린지
- 반복없음
- 확률
- 분산분석
- html
- version 2
- 이원배치 분산분석
- 에세이
- 산점도
- 인공지능
- 경제학
- 가설검정
- 변동분해
- 추정
- 변량효과모형
- r
- Today
- Total
생각 작업실 The atelier of thinking
28. 확률과 통계 본문
Chapter 28. 확률과 통계
1. 확률과 통계
(1) 확률과 통계는 왜 함께 다닐까?
확률은 불확실성을 다루기 위한 수학적 도구이고, 통계는 데이터를 수집,요약,분석하여 패턴을 파악하는 학문이라 할 수 있습니다. 이러한 이유로 확률과 통계는 밀접한 관계를 가지고 있습니다.
확률은 통계의 기초라고 말할 수 있습니다. 데이터를 분석하고 추론하기 위해서는 데이터가 어떤 분포를 따르는지, 그 분포의 모수는 무엇인지 등을 알아야하는데, 이 때 확률분포를 사용하면 데이터를 모델링하고 모수를 추정할 수 있습니다.
반대로, 통계는 확률을 응용하는 분야라 말할 수 있습니다. 확률 분포를 사용하여 데이터를 모델링하고 모수를 추정한 후, 이를 토대로 가설 검정, 신뢰 구간 추정 등을 수행합니다. 이러한 통계적 방법을 통해 데이터의 패턴과 관련된 문제를 해결할 수 있습니다.
즉, 통계학 안에서의 확률은 기술통계학과 추론통계학을 연결하는 개념입니다.
확률을 통해 통계학은 데이터를 이해하고 해석하는 기술통계학과 불확실성을 다루며 모집단을 추론하는 추론통계학 사이를 연결하는 역할을 수행합니다.
따라서 확률과 통계는 각각 독립적인 분야가 아니라 서로 보완적인 관계를 가지고 있습니다.
통계는 Data가 주어져 있는 상황에서 모델을 예측하는 것입니다.
관심 또는 연구의 대상인 모집단의 특성을 파악하기 위해 모집단으로부터 일부의 자료(표본)를 수집하고,
수집된 표본을 정리,요약,분석하여 표본의 특성을 파악한 후
표본의 특성을 이용하여 모집단의 특성에 대해 추론하는 원리와 방법을 제공합니다.
확률은 알려진 모델이 주어져 있는 상황에서 Data를 예측합니다.
모집단은 이미 알려진 모델이어야 합니다.
즉 사용할 수 있는 자료들을 최대한 정리해서 필요한 정보를 수집하는 것이 통계이고,
그 정보를 기초해서 확률을 계산하고 그것을 판단의 근거로 삼는 것이 확률입니다.
(2) 확률의 역할
통계학에서 확률은 불확실성과 불확실한 사건에 대한 추정과 예측을 가능하게 해주는 핵심적인 개념입니다.
통계학은 모집단의 특성을 파악하기 위해 표본을 추출하여 이를 분석하여 모집단에 대한 특성을 추론합니다. 모집단 전체를 분석하는 것이 아니기 때문에 100%의 정확하다 말할 수 없습니다. 이를 불확실성이라 말하는데, 확률은 이 불확실성을 수량화(수치화)하는 방법 중 하나입니다.
예를 들어, 동전을 던졌을 때 앞면이 나올 확률은 0.5입니다. 이것은 불확실한 사건에 대해 확률이라는 수치를 부여합니다. 혹은 어떤 사건이 일어날 가능성의 정도를 나타내는 숫자로, 0과 1 사이의 값을 가집니다. 이론적으로 0에 가까울수록 일어날 가능성이 낮고, 1에 가까울수록 일어날 가능성이 높습니다. 이처럼 확률의 역할은 불확실한 사건을 추치화를 통하여 통계학적인 분석을 가능하게 합니다.
통계학에서 데이터를 수집하고 분석하는 과정에서 확률분포를 가정하는 것이 중요합니다. 데이터 분석에서는 종종 확률분포를 이용하여 확률변수의 분포를 모델링하고, 해당 분포를 이용하여 통계적 추론을 수행합니다. 가장 대표적인 것이 정규분포를 가정하여 데이터 분석을 수행하는 경우입니다.
(3) 확률과 통계는 왜 필요할까요?
한마디로 합리적인 판단을 하기 위해서 입니다.
어떤 행동을 하면 어떤 결과가 될 지 확실히 알고 있는 이런 문제에서는 확률과 통계의 지식이 필요없이 결정할 수 있습니다. 그러나 불확실한 상황에서 합리적인 판단을 하기 위해서는 통계와 확률이 필요합니다. 불확실한 상황에서 막연하게 판단을 내리는 것보다는 통계 자료와 확률에 근거해서 판단을 내리는 것이 합리적이지 않을까요?
물론 확률을 정확하게 계산하기 어려운 경우도 많지만 확률을 근거로 삼는다는 사고방식 자체응 합리적인 판단을 하기 위해 꼭 필요한 것입니다. 이러한 이유로 확률과 통계는 함께 다니는 것입니다.
2. 확률(Probability) 이란 ?
확률(Probability)이란 어떤 사건이 발생할 가능성이 얼마나 되는지를 나타내는 0과 1 사이의 수치적 측도라고 할 수 있습니다.
확률을 언급하기 위해서는 확률실험, 표본공간과 사건이 설정되어야 합니다.
확률 실험의 전제조건은 시행하기 전에 발생할 수 있는 모든 결과는 알 수 있어야 하고 실험을 하기 전까지 이들 결과 중 어떤 것이 발생할 것인지에 대해 확실하게 예측할 수 없어야 합니다. 즉, 불확실성이 확률실험의 전제조건입니다.
표본공간(sample space)는 확률실험에서 발생 가능한 모든 결과들의 집합입니다.
사건(event)은 표본공간 내에서의 관심 부분집합입니다.
예를 들면, 확률이 발생하는 상황으로 주사위 던지기가 있습니다. 주사위 던지기는 확률실험의 전제조건 2가지 시행하기전에 발생할 수 있는 모든 결과를 알 수 있어야 하고 어떤 것이 발생할 것인지에 대해 확실하게 예측할 수 없는 다는 것을 만족합니다. 이 주사위 던지기 확률실험에서 표본공간은 1,2,3,4,5,6 입니다. 사건은 "홀수가 나오는 경우"라 했을 때, 사건이 발생할 가능성이 얼마나 되는지를 나타내는 0과 1 사이의 수치, 즉 확률을 구할 수 있습니다.
사건들은 모두 집합형태를 보이는 경우가 많습니다. 그러한 이유로 확률을 집합을 통해 설명하는 경우가 많습니다.
3. 확률(Probability)을 보는 두 가지 견해
확률에 대한 두 가지 주요 관점은 도수이론과 주관적 견해입니다. 각 관점은 각자의 장단점이 있어 다양한 상황에서 적용됩니다.
(1) 도수이론(Frequentist view)
도수이론에서 확률은 반복된 실험에서 특정사건이 발생하는 상대적 빈도로 정의됩니다. 즉, 어떤 사건이 발생하는 횟수를 실험횟수로 나눈 값으로 계산됩니다. 이 관점은 실험을 반복하여 관측하고 그 결과를 통해 확률을 추정합니다. 도수이론은 정확하고 신뢰할 수 있는 확률을 얻을 수 있지만, 무한한 실험이나 관측이 필요한 이상적인 조건에서만 완전하게 유효합니다.
(2) 주관적 견해(Subjective view)
주관적 견해에서는 확률은 개인의 주관적인 확신이나 믿음을 나타냅니다. 사건이 발생할 가능성에 대한 개인적인 믿음의 정도로 정의됩니다. 이 관점은 주관적인 판단, 경험,지식 등을 기반으로 확률을 결정합니다. 주관적 견해는 빠르게 확률을 평가할 수 있으나, 여러 사람이 동일한 사건에 대해 다른 확률을 가질 수 있어 객관성에 도전받을 수 있습니다.
현대확률론에서는 두 관점을 조합하여 사용하는 경향이 있습니다. 주관적인 견해를 바탕으로 초기 확률을 설정한 후, 도수이론을 사용하여 이를 검증하거나 수정하는 방식으로 확률을 접근합니다. 이러한 접근 방식은 주관적 견해의 강점을 살리면서, 실험적인 데이터를 활용하여 더 견고한 확률을 얻을 수 있게 합니다.
'통계학 이야기' 카테고리의 다른 글
30. 확률과 경우의 수(The Number of Cases) (1) | 2023.10.08 |
---|---|
29. 확률의 공리와 기본 정리 (1) | 2023.09.27 |
27. R을 이용한 산점도, 공분산, 상관관계 구하기 (0) | 2023.09.25 |
26. 다변량 자료의 기술 통계 - 공분산, 상관관계 & 산점도 (0) | 2023.09.22 |
25. R을 이용한 범주형 자료 요약 (1) | 2023.09.21 |