일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 고정효과모형
- 변량효과모형
- 분산분석
- 글쓰기
- 이항분포
- 인공지능
- 추정
- 데이터 과학
- 경제학
- 가설검정
- 이원배치 분산분석
- 두 평균의 비교
- 정규분포
- css
- r
- 반복있음
- 변동분해
- 회귀분석
- 산점도
- 통계학
- JavaScript
- version 1
- 반복없음
- version 2
- 에세이
- 오블완
- 티스토리챌린지
- 확률
- 혼합효과모형
- html
- Today
- Total
생각 작업실 The atelier of thinking
41. 확률분포의 분류 본문
Chapter 41. 확률분포의 분류
1. 확률분포를 구분하는 이유
통계학에서 주된 관심은 모집단의 특성을 알고자 하는 것입니다. 모집단 전체를 분석하는 것이 가장 정확하겠으나, 대부분의 경우 비용과 시간문제가 발생하여 표본을 추출하여 분석합니다. 이 때 보다 분석에 신뢰를 더해주는 것이 확률입니다.
통계의 기초인 데이터는 확률변수의 관측값이거나 결과입니다. 확률변수는 이 결과를 숫자로 바꿔 수학적 모델링을 가능하게 합니다. 확률분포는 확정변수가 가질 수 있는 모든 값과 그 값이 나타날 확률을 나타내는 함수입니다. 바꿔말하면, 확률분포는 모집단의 특성을 확률적으로 모델링합니다.
따라서 확률분포를 통해 모집단의 특성을 일정한 수학적 형태로 표현하고, 이를 기반으로 확률적인 추론이나 예측을 수행할 수 있습니다.
하지만, 확률변수는 다양한 값들을 가지고 확률분포는 확률변수의 특성과 확률변수가 나타내는 현상 또는 데이터의 성격에 따라 다양한 확률분포를 가지게 됩니다.
따라서 확률분포를 구분하는 주된 이유는 모집단의 특성을 보다 정확하게 모델링하고 파악하기 위함입니다. 각각의 확률분포는 다른 형태의 데이터 패턴과 특성을 다루기에 적합하며, 이를 통해 모집단에서 발생하는 현상을 더 정확하게 설명하고 예측할 수 있습니다.
확률분포는 모집단에서 발생하는 현상을 간결하게 표현하고, 확률적인 예측과 추론을 수행하는 데 도움을 줍니다. 모집단의 특성과 데이터의 형태에 따라 가장 적합한 확률분포를 선택하여 사용함으로써 통계분석을 더 정확하게 수행할 수 있습니다.
세부적으로, 확률분포는 통계적 추론의 기반을 형성합니다. 데이터 과학, 머신러닝, 품질관리, 과학 연구 등 다양한 분야에서 확률분포를 사용하여 데이터를 모델링하고 통계적 추론을 수행합니다.
예를 들어, 데이터를 수집한 후 그 데이터가 어떤 분포를 따른다고 가정하면, 해당 분포의 모수를 추정하고 신뢰구간을 계산하여 모집단에 대한 정보를 얻을 수 있습니다.
따라서 확률분포와 통계적 추론은 데이터 분석 및 의사결정과정에서 서로 긴밀하게 결합되어 사용됩니다.
2. 확률분포의 분류
확률분포는 확률변수에 따라 크게 이산확률분포와 연속확률분포로 분류할 수 있습니다.
이산확률분포는 이산적인 값들을 가지는 확률변수의 분포를 의미합니다. 이산확률분포는 확률변수가 취할 수 있는 값이 떨어져 있는 경우에 사용됩니다. 예를 들어, 동전던지기, 주사위 던지기 등과 같이 확률변수가 취할 수 있는 값이 유한하거나 셀 수 있는 경우에 이산확률분포를 사용합니다.
연속확률분포는 연속적인 값을 가지는 확률변수의 분포를 의미합니다. 연속확률분포는 확률변수가 취할 수 있는 값이 연속적인 경우에 사용됩니다. 예를 들어, 시간, 길이, 온도 등과 같이 연속적인 값을 가지는 경우에 연속확률분포를 사용합니다.
이산확률분포와 연속확률분포는 서로 다른 특징을 가지고 있으며, 확률변수의 특성에 따라 다른 분포를 사용해야 합니다.
(1) 이산확률분포(Discrete Probability Distribution)
확률변수가 이산형 값만 가지며, 셀 수 있으며, 각 값은 개별적으로 구별됩니다.
확률변수가 특정값에 대한 확률질량함수를 가지며, 이 함수는 각 값에 대한 확률을 나타냅니다.
① 이항분포(Binomial Distribution)
성공 또는 실패와 같이 두 가지 결과만 가능한 시행에서 사용됩니다.
독립적으로 n번의 시행을 수행하고 각 시행에서 성공할 확률 p가 주어집니다.
예를 들어, 동전 던지기, 성공/실패 횟수의 분포 등이 있습니다.
② 초기하분포(Hypergeometric Distribution)
모집단에서 복원없이 표본을 뽑을 때 사용됩니다.
모집단에서 성공항목과 실패항목이 있고, 표본에서 성공 항목의 개수를 계산하는 데 활용됩니다.
예를 들어, 품질관리, 인구 조사, 카드 덱에서 특정 종류의 카드 뽑기 등이 있습니다.
③ 포아송분포(Poisson Distribution)
일정한 시간 또는 공간에서 사건이 발생하는 비율이 주어질 때 사용됩니다.
예를 들어, 사고 발생률, 이벤트 횟수 등이 있습니다.
④ 기하분포(Geometric Distribution)
첫번째 성공까지 시행을 반복하는 경우에 사용됩니다.
각 시행에서 성공확률 p가 주어질 때, 첫번째 성공까지 시행횟수를 모델링합니다.
예를 들어, 첫번째 불량품이 생산될 때까지의 시행횟수 등이 있습니다.
⑤ 음이항분포(Negative Bionomial Distribution)
동일한 베르누이 시행을 반복하다가 처음으로 k번의 성공이 나타날 때까지 실패횟수를 모델링합니다.
이 분포는 실패횟수의 확률을 계산하는데 사용됩니다. 성공횟수(k)에 대한 확률분포를 제공하며, 성공확률과 실패확률이 주어집니다.
예를 들어, 제품의 불량률을 추적하거나, 품질향상시 원하는 개선횟수를 예측할 때 등이 있습니다.
⑥ 다항분포(Multinomial Distribution)
여러 범주 또는 클래스 중 하나가 각 시행에서 선택될 때 사용됩니다.
주로 범주형 데이터를 다룰 때 활용되며, 주어진 범주의 확률을 기반으로 각 범주의 발생빈도를 모델링합니다.
예를 들어, 복수 클래스 분류, 조사 결과 분석 등이 있습니다.
(2) 연속확률분포(Continuous Probability Distribution)
확률변수는 연속적인 실수 값을 가집니다. 이 실수 값은 무한히 많은 값으로 이루어져 있으며, 개별적으로 구별하기 어렵습니다.
확률변수가 확률밀도함수를 가지며, 이 함수는 확률변수가 특정구간에 속할 확률밀도를 제공합니다.
① 정규분포 (Normal Distribution)
가장 널리 사용되는 확률분포로 종모양의 대칭적인 분포를 가집니다.
평균과 표준편차로 특징 지어집니다.
다양한 현상을 모델링하는 데 사용됩니다. 중심극한정리에 의해 많은 현상이 정규분포를 따르므로 통계분석에서 중요한 역할을 합니다.
② T-분포(Student's t-Distribution)
정규분포를 따르는 모집단에서 표본 추출시, 표본 크기가 작거나 모집단 표준편차를 모르는 경우 사용됩니다.
정규분포와 달리 꼬리부분이 두터워, 작은 표본에서의 신뢰구간 추정 및 가설검정에 유용합니다.
③ F-분포(F-Distribution)
분산의 비율을 비교하기 위해 사용됩니다. 주로 분산분석(ANOVA) 등에서 활용됩니다.
두 개 이상의 정규분포에서 추출한 표본들의 분산을 비교할 때 유용합니다.
④ 카이 제곱 분포(Chi-Square Distribution)
주로 분산 및 표준화 잔차 분석에 사용되며, 데이터가 어떤 분포를 따르는지 검정하는 데 활용됩니다.
자유도(degrees of freedom)에 의존하며, 독립적인 표본의 제곱합을 나타내는 데 사용됩니다.
'통계학 이야기' 카테고리의 다른 글
43. R을 이용한 확률분포 - 이항분포 구하기 (0) | 2023.10.25 |
---|---|
42. 베르누이분포 & 이항분포 (이산확률분포) (0) | 2023.10.24 |
40. 확률변수의 공분산과 상관계수 (1) | 2023.10.22 |
39. 확률분포 - 결합분포&주변분포 (2) | 2023.10.20 |
38. 확률변수의 분산과 표준편차 (1) | 2023.10.19 |