생각 작업실 The atelier of thinking

42. 베르누이분포 & 이항분포 (이산확률분포) 본문

통계학 이야기

42. 베르누이분포 & 이항분포 (이산확률분포)

knowledge-seeker 2023. 10. 24. 15:17

Chapter 42. 베르누이분포 & 이항분포

 

1. 베르누이분포 ( Bernoulli Distribution)

 

(1) 베르누이 시행(Bernoulli Trial)

 

두 가지의 결과만을 가지는 실험을 말합니다. 이러한 시행에서 각각의 결과를 성공(success)과 실패(failure)로 정의합니다. ( S/F )

 

예를 들어, 동전을 한 번 던져서 앞면이나 뒷면이 나오게 하는 것도 베르누이 시행입니다.

 

 베르누이 시행은 아래와 같이 3가지의 특징이 있습니다.

 

① 각 실험에서 발생 가능한 결과는 단 2가지이다. 예) 성공/실패, 앞면/뒷면

② 각 실험이 독립적으로 수행한다.

③ 모든 실험에서 결과의 확률은 항상 동일하다.

 

◈ 예제 : 불량품 검사 I

 10개의 제품 중 3개가 불량품일 때,

 

  ▶ 2 개를 복원추출하는 경우

      실험에서 발생 가능한 결과는 2가지 이다. 정상/불량

        각 실험이 독립적이다.

      모든 실험에서 결과의 확률은 항상 동일하다.

 

$$ P(S_1, S_2) = P(S_1) P(S_2|S_1) = \frac{3}{10} \times \frac{3}{10} $$

 

 위 조건을 모두 충족하므로 베르누이 시행이라 할 수 있습니다.

 

  ▶ 2 개를 비복원추출하는 경우

 

$$ P(S_1, S_2) = P(S_1) P(S_2|S_1) = \frac{3}{10} \times \frac{2}{9} $$

 

모든 실험에서 결과의 확률은 항상 동일하다는 조건을 충족하지 못하므로 이는 베르누이 시행이 아닙니다.

 

◈ 예제 : 불량품 검사 II

 

 10,000개의 제품 중 3,000개가 불량품일 때,

 

  ▶ 2 개를 복원추출하는 경우 → 베르누이 시행

$$ P(S_1, S_2) = P(S_1) P(S_2|S_1) = \frac{3000}{10000} \times \frac{3000}{10000} $$

 

▶ 2 개를 비복원추출하는 경우 → ??

 

$$ P(S_1, S_2) = P(S_1) P(S_2|S_1) = \frac{3000}{10000} \times \frac{2999}{9999} $$

$$ P(S_2) = 0.3 \not= 0.29993 = P(S_2|S_1) \backsimeq P(S_2) $$

 

※ 모집단이 크고 표본크기가 상대적으로 크지 않은 경우, 비복원 추출도 베르누이 실험을 근사모형으로 사용가능합니다.

 

(2) 베르누이 확률변수 (Bernoulli Random Variable)

 

 베르누이 시행에서 성공을 1, 실패를 0으로 정의한 이항 확률변수 중 성공과 실패 중 하나의 값을 가지는 경우를 말합니다. 베르누이 확률변수는 두 값 중 하나만 가질 수 있으므로 이산확률변수(discrete random variable)입니다.

 확률변수란 원소를 숫자로 변환시켜 주는 것입니다. 

 모수(성공할 확률)가 p인 베르누이 시행을 하였을 때, 성공이면 1로 실패하면 0으로 변환합니다. 

 일종의 지시함수(indicator function)로 베르누이 확률변수는 0과 1 이 됩니다.

 

(3) 베르누이 확률분포( Bernoulli Distribution)

 

확률분포는 확률변수가 가질 수 있는 모든 값과 그 값이 나타날 확률을 나타내는 함수입니다.

베르누이 확률분포는 확률변수 0과 1 에 대한 성공(1) 확률 p와 실패확률 1-p 로 이루어져 있습니다.

 

예를 들면, 동전던지기의 경우 P(X=0) = P(X=1)=0.5 로 나타낼 수 있습니다. 이 때 확률의 법칙에 따라서 확률분포에 나온 값을 모두 합할 경우 1이 되어야 합니다. 동전던지기와 같이 2가지 가능한 결과물을 가진 확률변수의 확률분포를 베르누이 분포라고 합니다.

 

베르누이 확률변수의 확률질량함수는 아래와 같이 표현할 수 있습니다.

 

$$ f(x) = P(X=x) = p^x(1-p)^{1-x} , x = 0,1 $$

 

베르누이 분포는 $ X \sim B(p) $ 와 같이 나타냅니다.

 

(4) 베르누이 확률변수의 기대값과 분산

 

 앞서 기대값을 구하는 식은, 

$$ E(X) = \sum_{x} xf(x_i) $$

 

베르누이 확률변수는 0 과 1 이고 확률질량함수는 $ f(x) = p^x(1-p)^{1-x} $ 입니다. 이를 적용하면,

$$ E(X) = 0 \times (1-p) + 1 \times p = p $$

입니다.

 

확률변수의 분산은 $ Var(X) = E(X^2) - E(X)^2 $으로 구할 수 있습니다.

먼저 $E(X^2)을 구하면,

$$ E(X^2) = 0^2 \times (1-p) + 1^2 \times p = p $$

위 결과를 분산을 구하는 식에 적용하면, 아래와 같습니다.

$$ Var(X) = E(X^2) - E(X)^2 = p - p^2 = p(1-p) $$

따라서 , 표분편차는 아래와 같습니다.

$$ SD(X) = \sqrt{Var(X)} = \sqrt{p(1-p)} $$

 

2. 이항분포(Binomial Distribution)

 

이항분포는 연속된 n번의 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산확률분포를 말합니다.

이 때의 시행은 베르누이 시행입니다. 따라서, 이항분포는 베르누이 시행으로 부터 유도됩니다.

n=1 일 때의 이항분포는 베르누이 분포입니다.

 

 이항분포는 대표적인 이산확률분포입니다. 이 이항분포의 기초를 이루는 것은 베르누이 시행과 베르누이 확률변수 입니다. 

 

 (1) 이항 확률변수 (Binomial Random Variable)

 

  성공할 확률이 p인 베르누이 시행을 n번 반복했을 때, 성공횟수를 X 의 분포는 n개의 베르누이 확률변수 합으로 표시할 수 있습니다.

 

 $$     X_1+X_2+ ... + X_n = X $$

S     1      1     ...      1            ↓ 

         F     0     0     ...      0       성공횟수  

 

여기서 성공 횟수의 합 X 가 이항 확률변수입니다.

$$   X =  X_1+X_2+ ... + X_n  $$

 

 (2) 이항 확률분포

 

 이항분포는 이항확률변수 X 는 n과 p를 모수로 갖는다는 의미로 아래와 같이 표현합니다.

$$ X \sim B(n , p) $$

 

 이항분포의 확률질량함수는 총 n번의 시행 중 성공한 x번의 확률을 구하는 것이라 할 수 있습니다.

 

$$ f(x) = \dbinom{n}{x} p^x(1-p)^{n-x} , x = 0,1,2,...,n $$

 

위 이항분포의 확률질량함수는 이항공식이라 부르기도 합니다.

 

n에서 x를 구하는 것은 경우의  수에서 조합에 해당됩니다. 조합을 구하는 식은 아래와 같습니다.

 

$$ _nC_k= \dbinom{n}{k} = \frac{n!}{k!(n-k)!} $$

 

이를 이항공식에 대입하면, 아래와 같이 나타납니다.

 

$$ f(x) = \frac{n!}{x!(n-x)!} p^x(1-p)^{n-x} , x = 0,1,2,...,n $$

 

다만 이항공식은 아래의 조건하에서 성립합니다.

      ①  n의 값은 미리 정해져있다.

        각 시행은 상호 독립이다.

        p는 매 시행마다 항상 동일하다.

 

 (3) 이항 확률변수의 기대값과 분산

 

 이항확률변수의 기대값과 분산을 베르누이확률변수의 기대값과 분산에서 유도할 수 있습니다.

 

 기대값의 정리에서 $ E(X+Y) = E(X) + E(Y) $ 임을 고려한다면,

 베르누이 확률변수의 기대값과 분산은 $ E(X_i) = p , Var(X_i) = p(1-p) $ 이라 할 때,

 이항확률변수의 기대값은, 

 $$ E(X) = E( X_1 +X_2+ ... + X_n) = E(X_1)+E(X_2) + ... +E(X_n) $$

이라 할 수 있습니다. $E(X_i) = p $ 이므로 p를 n번을 더한 것입니다. 따라서, 이항확률변수의 기대값은 아래와 같이 나타납니다.

$$ E(X) = np $$

 

이항확률변수의 분산은, 공분산의 성질을 이용하여 유도할 수 있습니다.

공분산의 성질 중 $Var(X+Y) = Var(X)+Var(Y)+2Cov(X,Y) $ 이고 독립일 때 공분산은 0 임을 고려한다면, 이항확률변수는 베르누이 시행을 하고 독립시행입니다. 따라서 $ Var(X+Y) = Var(X)+Var(Y) $ 라 할 수 있습니다.

$ Var(X_i) = p(1-p) $ 이므로 $ Var(X)$ 는 p(1-p)를 n번 더한 것입니다. 따라서 이항확률변수의 분산은 아래와 같이 나타납니다.

 

$$ Var(X) = Var(X_1+X_2+ ... +X_n) = np(1-p)$$

 

 

따라서, 표준편차는 아래와 같이 표현할 수 있습니다.

 

$$ SD(X) = \sqrt{Var(X)} = \sqrt{np(1-p)} $$

 

 

 

3. 베르누이분포 vs 이항분포

 

베르누이분포와 이항분포를 비교 정리하면 아래와 같습니다.

n=1 인 이항분포가 베르누이 분포라 생각하면 됩니다.

 

  베르누이 분포 이항분포
확률변수 $ X_1$ $ X = X_1+X_2+ ... + X_n $
확률질량함수 $f(x)$ $  p^x(1-p)^{1-x} , x = 0,1 $ $ \dbinom{n}{x} p^x(1-p)^{n-x} , x = 0,1,2,...,n $
확률분포 표시 $X \backsim B(p)$ $ X \backsim B(n,p) $
기대값  $E(X)$ $p$ $np$
분산  $Var(X)$ $p(1-p)$ $np(1-p)$
표준편차 $SD(X)$ $ \sqrt {p(1-p)} $ $ \sqrt {np(1-p)}$

 

확률분포의 분류