생각 작업실 The atelier of thinking

36. 확률함수 - 확률질량함수 & 확률밀도함수 본문

통계학 이야기

36. 확률함수 - 확률질량함수 & 확률밀도함수

knowledge-seeker 2023. 10. 17. 14:44

Chapter 36. 확률함수 - 확률질량함수 & 확률밀도함수

 

1. 확률변수, 확률함수, 확률분포

 

앞서 확률변수는 특정 확률실험에서 발생 가능한 결과를 수치화한 것을 의미한다고 하였습니다. 

확률분포는 확률변수가 가질 수 있는 모든 값에 대한 확률을 말한다고 했습니다.

확률함수란 확률변수가 가질 수 있는 모든 값에 대해 해당 값이 나올 확률을 나타내는 함수를 말합니다.

이 셋의 관계를 정리하면 " 확률실험 내 모든 확률변수가 확률함수를 통하여 나온 값들의 집합이 확률분포이다."라고 표현할 수 있습니다.

 

확률변수의 형태는 표본공간의 원소의 형태에 따라 셀 수 있는 이산자료에서 나온 이산확률변수와 연속형 실수에서 나온 연속확률변수로 나눌 수 있습니다.  확률함수는 확률변수의 값을 입력받아 해당 갑이 나타날 확률을 출력하는 함수이므로 확률변수의 형태에 따라 이산확률변수에 대해서는 확률질량함수가, 연속확률변수에 대해서는 확률밀도함수가 각각 확률함수 역할을 하게 됩니다.

 

이렇게 각각의 함수를 거쳐 이산확률분포와 연속확률분포로 나타나게 됩니다.

 

이산확률변수 → 확률질량함수 →이산확률분포

연속확률변수 → 확률밀도함수 →연속확률분포

 

2. 확률질량함수(Probability Mass Function, PMF)

 

 확률질량함수는 이산확률변수에서 특정 값에 대한 확률를 나타내는 함수입니다. 따라서 이산확률변수의 확률구조를 나타냅니다.

 

 (1) 표현방법

         확률질량함수 f 를 사용하여 표현하고 확률변수는 P(X=x) 형태로 나타냅니다.

         ( f : function, P : Probability)

          이산확률변수 X를 강조하기 위해 추가로 표시하기도 합니다.

◈ 예제 : 동전 3개 던지기

 

 이전 회차에서 동전을 3개 던지는 확률실험을 할 때 앞면의 수를 나타내는 확률변수 X를 아래와 같이 나타냈습니다.

 이 확률변수를 확률질량함수로 표현하면, 아래와 같이 나타낼 수 있습니다.

그렇다면, 앞면과 뒷면의 수의 차이를 Y라는 확률변수로 했을 때, 확률변수 Y는 1과 3의 값을 갖습니다.

이를 Y를 강조한 확률질량함수로 표현하면, 아래와 같이 나타낼 수 있습니다.

(2) 확률질량함수의 성질

 

 확률질량함수는 확률이기 때문에 확률이 가지는 기본 성질을 똑같이 가지고 있습니다.

확률의 기본정리
1. 확률은 0과 1 사이이다.
2. 표본공간의 합은 1 이다.
3. 임의의 구간에 있는 확률은 해당되는 구간 안의 모든 것을 더한 것이다.

 확률의 기본정리를 확률질량함수로 표현하면 아래와 같습니다.

 

$ f(x) = P(X=x) $ 는 확률이므로,

확률변수 X가 가질 수 있는 값이 $x_1.x_2,x_3,...$ 이라 한다면

 

모든  $i=1,2,...$ 에 대해 $0\leq f(x_i)\leq 1$

 

②  $ \begin{align} \sum_{i}f(x_i) = 1\end{align}$

 

③  $ \begin{align} P(a \leq X \leq b)= \sum_{x_i \in|a,b|}f(x_i)  \end{align}$

 

 

(3) 누적분포함수(Cumulative Distribution Function, CDF)

 

누적확률함수는 확률변수가 특정 값보다 작거나 같은 확률을 나타내는 함수입니다. 위 성질 ③의 변형된 형태라고 할 수 있습니다.

$$ \begin{align} P(X \leq x)= \sum_{x_i \leq x}f(x_i)=F(x), -\infty <x< \infty \end{align}$$ 

 

◈ 예제 : 동전 3개 던지기

 

앞서 확률질량함수는 아래와 같이 나타냈습니다.

이 확률질량함수를 그래프로 표현하면

누적확률함수를 그래프로 표현하면,

 

점프 뛴 만큼의 차이가 그 지점의 확률이 됩니다.

 

3. 확률밀도함수(Probability Density Function,PDF)

 

확률밀도함수는 연속확률변수의 분포를 나타내는 함수로 이산확률변수의 확률질량함수와 대응된다고 할 수 있습니다.

 

(1) 표현방법 - 확률밀도함수에서의 확률

 

$$ \begin{align} P(a \leq X \leq b)= \int_{a}^b f(x)dx \end{align}$$ 

 

연속된 선에서 임의의 점에서의 확률은 0 입니다. 따라서, 구간 면적이 구간에서의 확률을 나타냅니다.

위 확률밀도함수는 연속확률변수 X가 구간[a,b]에 속할 확률을 나타냅니다.

확률밀도함수는 면적을 구해야하기 때문에 적분을 적용합니다.

 

▶ 히스토그램(Histogram)

 

 확률밀도함수를 시각화할 때 자주 사용하는 것이 히스토그램입니다.

 히스토그램은 수치자료, 특히 연속자료의 분포형태를 표시할 때 유용합니다.

 

 위 그림은 연속자료로 이루어진 모집단에서 n개를 표본추출을 할 때, 각 100,10,000,∞ 인 히스토그램입니다.

∞ 일 때는 모집단을 의미하며, 이 때 x에서의 높이가 밀도를 나타내며, 이를 나타내는 f(x)는 확률밀도함수라고 할 수 있습니다.

 

(2) 확률밀도함수의 성질

 

확률밀도함수도 확률이기 때문에 확률의 기본성질을 가지고 있습니다. 이를 확률밀도함수로 표현하면, 아래와 같습니다.

 

 모든  $x$ 에 대해 $f(x) \ge 0$

 

②  $ \begin{align} \int_{-\infty}^\infty f(x)dx = 1 \end{align}$

 

③  $ \begin{align} P(a \leq X \leq b)= \int_{a}^b f(x)dx \end{align}$

 

 

(3) 누적분포함수(Cumulative Distribution Function, CDF)

 

확률밀도함수에서의 누적분포함수를 표현하면,

 

$$ \begin{align} P(X \leq x)= \int_{-\infty}^x f(u)du = F(x) \end{align}$$ 

 

◈ 예제 : 0~12 까지의 숫자가 표시된 돌림판

 

왼쪽 그림과 같이 숫자가 표시된 돌림판을 돌려서 바늘이 위치하는 사건을 확률변수 X라 할 때,

 

표본공간은 $ \Omega = { x : 0 < x \leq 12 } $ 로 나타낼 수 있습니다.

이 때 0에서 12사이 발생가능성은 동일하다고 가정합니다.

이 때 바늘이 3에서 6 사이에 있을 확률을 구한다면 ?

 

 

 확률을 그림으로 표현하면,

위 그림에서 높이는 밀도를 나타내며 구간에서 모두 동일합니다. 즉, $ f(x) = c $ 로 나타낼 수 있습니다.

여기서 전체면적은 1을 나타내므로 $ f(x) = \frac{1}{12} , 0< x \leq 12 $ 라 할 수 있습니다.

 

따라서 바늘이 3에서 6 사이에 있을 확률은 아래와 같습니다.

 

$$ P( 3 \leq X \leq 6 ) = \frac{3}{12} = \frac{1}{4}  $$

 

누적분포함수 $F(x)$ 는 아래와 같이 나타낼 수 있습니다.

구간별로

$$ x \leq 0 일 때, F(x) = 0 $$

$$ 0< x \leq 12 일 때, F(x) = \frac{x}{12} $$

$$ x \ge 12 일 때, F(x) = 1 $$