42. 베르누이분포 & 이항분포 (이산확률분포)

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

생각 작업실 The atelier of thinking

42. 베르누이분포 & 이항분포 (이산확률분포) 본문

통계학 이야기

42. 베르누이분포 & 이항분포 (이산확률분포)

knowledge-seeker 2023. 10. 24. 15:17

Chapter 42. 베르누이분포 & 이항분포

1. 베르누이분포 ( Bernoulli Distribution)

(1) 베르누이 시행(Bernoulli Trial)

두 가지의 결과만을 가지는 실험을 말합니다. 이러한 시행에서 각각의 결과를 성공(success)과 실패(failure)로 정의합니다. ( S/F )

예를 들어, 동전을 한 번 던져서 앞면이나 뒷면이 나오게 하는 것도 베르누이 시행입니다.

베르누이 시행은 아래와 같이 3가지의 특징이 있습니다.

① 각 실험에서 발생 가능한 결과는 단 2가지이다. 예) 성공/실패, 앞면/뒷면

② 각 실험이 독립적으로 수행한다.

③ 모든 실험에서 결과의 확률은 항상 동일하다.

◈ 예제 : 불량품 검사 I

10개의 제품 중 3개가 불량품일 때,

▶ 2 개를 복원추출하는 경우

① 실험에서 발생 가능한 결과는 2가지 이다. 정상/불량

② 각 실험이 독립적이다.

③ 모든 실험에서 결과의 확률은 항상 동일하다.

$$ P(S_1, S_2) = P(S_1) P(S_2|S_1) = \frac{3}{10} \times \frac{3}{10} $$

위 조건을 모두 충족하므로 베르누이 시행이라 할 수 있습니다.

▶ 2 개를 비복원추출하는 경우

$$ P(S_1, S_2) = P(S_1) P(S_2|S_1) = \frac{3}{10} \times \frac{2}{9} $$

모든 실험에서 결과의 확률은 항상 동일하다는 조건을 충족하지 못하므로 이는 베르누이 시행이 아닙니다.

◈ 예제 : 불량품 검사 II

10,000개의 제품 중 3,000개가 불량품일 때,

▶ 2 개를 복원추출하는 경우 → 베르누이 시행

$$ P(S_1, S_2) = P(S_1) P(S_2|S_1) = \frac{3000}{10000} \times \frac{3000}{10000} $$

▶ 2 개를 비복원추출하는 경우 → ??

$$ P(S_1, S_2) = P(S_1) P(S_2|S_1) = \frac{3000}{10000} \times \frac{2999}{9999} $$

$$ P(S_2) = 0.3 \not= 0.29993 = P(S_2|S_1) \backsimeq P(S_2) $$

※ 모집단이 크고 표본크기가 상대적으로 크지 않은 경우, 비복원 추출도 베르누이 실험을 근사모형으로 사용가능합니다.

(2) 베르누이 확률변수 (Bernoulli Random Variable)

베르누이 시행에서 성공을 1, 실패를 0으로 정의한 이항 확률변수 중 성공과 실패 중 하나의 값을 가지는 경우를 말합니다. 베르누이 확률변수는 두 값 중 하나만 가질 수 있으므로 이산확률변수(discrete random variable)입니다.

확률변수란 원소를 숫자로 변환시켜 주는 것입니다.

모수(성공할 확률)가 p인 베르누이 시행을 하였을 때, 성공이면 1로 실패하면 0으로 변환합니다.

일종의 지시함수(indicator function)로 베르누이 확률변수는 0과 1 이 됩니다.

(3) 베르누이 확률분포( Bernoulli Distribution)

확률분포는 확률변수가 가질 수 있는 모든 값과 그 값이 나타날 확률을 나타내는 함수입니다.

베르누이 확률분포는 확률변수 0과 1 에 대한 성공(1) 확률 p와 실패확률 1-p 로 이루어져 있습니다.

예를 들면, 동전던지기의 경우 P(X=0) = P(X=1)=0.5 로 나타낼 수 있습니다. 이 때 확률의 법칙에 따라서 확률분포에 나온 값을 모두 합할 경우 1이 되어야 합니다. 동전던지기와 같이 2가지 가능한 결과물을 가진 확률변수의 확률분포를 베르누이 분포라고 합니다.

베르누이 확률변수의 확률질량함수는 아래와 같이 표현할 수 있습니다.

$$ f(x) = P(X=x) = p^x(1-p)^{1-x} , x = 0,1 $$

베르누이 분포는 $ X \sim B(p) $ 와 같이 나타냅니다.

(4) 베르누이 확률변수의 기대값과 분산

앞서 기대값을 구하는 식은,

$$ E(X) = \sum_{x} xf(x_i) $$

베르누이 확률변수는 0 과 1 이고 확률질량함수는 $ f(x) = p^x(1-p)^{1-x} $ 입니다. 이를 적용하면,

$$ E(X) = 0 \times (1-p) + 1 \times p = p $$

입니다.

확률변수의 분산은 $ Var(X) = E(X^2) - E(X)^2 $으로 구할 수 있습니다.

먼저 $E(X^2)을 구하면,

$$ E(X^2) = 0^2 \times (1-p) + 1^2 \times p = p $$

위 결과를 분산을 구하는 식에 적용하면, 아래와 같습니다.

$$ Var(X) = E(X^2) - E(X)^2 = p - p^2 = p(1-p) $$

따라서 , 표분편차는 아래와 같습니다.

$$ SD(X) = \sqrt{Var(X)} = \sqrt{p(1-p)} $$

2. 이항분포(Binomial Distribution)

이항분포는 연속된 n번의 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산확률분포를 말합니다.

이 때의 시행은 베르누이 시행입니다. 따라서, 이항분포는 베르누이 시행으로 부터 유도됩니다.

n=1 일 때의 이항분포는 베르누이 분포입니다.

이항분포는 대표적인 이산확률분포입니다. 이 이항분포의 기초를 이루는 것은 베르누이 시행과 베르누이 확률변수 입니다.

(1) 이항 확률변수 (Binomial Random Variable)

성공할 확률이 p인 베르누이 시행을 n번 반복했을 때, 성공횟수를 X 의 분포는 n개의 베르누이 확률변수 합으로 표시할 수 있습니다.

$$ X_1+X_2+ ... + X_n = X $$

S 1 1 ... 1 ↓

F 0 0 ... 0 성공횟수

여기서 성공 횟수의 합 X 가 이항 확률변수입니다.

$$ X = X_1+X_2+ ... + X_n $$

(2) 이항 확률분포

이항분포는 이항확률변수 X 는 n과 p를 모수로 갖는다는 의미로 아래와 같이 표현합니다.

$$ X \sim B(n , p) $$

이항분포의 확률질량함수는 총 n번의 시행 중 성공한 x번의 확률을 구하는 것이라 할 수 있습니다.

$$ f(x) = \dbinom{n}{x} p^x(1-p)^{n-x} , x = 0,1,2,...,n $$

위 이항분포의 확률질량함수는 이항공식이라 부르기도 합니다.

n에서 x를 구하는 것은 경우의 수에서 조합에 해당됩니다. 조합을 구하는 식은 아래와 같습니다.

$$ _nC_k= \dbinom{n}{k} = \frac{n!}{k!(n-k)!} $$

이를 이항공식에 대입하면, 아래와 같이 나타납니다.

$$ f(x) = \frac{n!}{x!(n-x)!} p^x(1-p)^{n-x} , x = 0,1,2,...,n $$

다만 이항공식은 아래의 조건하에서 성립합니다.

① n의 값은 미리 정해져있다.

② 각 시행은 상호 독립이다.

③ p는 매 시행마다 항상 동일하다.

(3) 이항 확률변수의 기대값과 분산

이항확률변수의 기대값과 분산을 베르누이확률변수의 기대값과 분산에서 유도할 수 있습니다.

기대값의 정리에서 $ E(X+Y) = E(X) + E(Y) $ 임을 고려한다면,

베르누이 확률변수의 기대값과 분산은 $ E(X_i) = p , Var(X_i) = p(1-p) $ 이라 할 때,

이항확률변수의 기대값은,

$$ E(X) = E( X_1 +X_2+ ... + X_n) = E(X_1)+E(X_2) + ... +E(X_n) $$

이라 할 수 있습니다. $E(X_i) = p $ 이므로 p를 n번을 더한 것입니다. 따라서, 이항확률변수의 기대값은 아래와 같이 나타납니다.

$$ E(X) = np $$

이항확률변수의 분산은, 공분산의 성질을 이용하여 유도할 수 있습니다.

공분산의 성질 중 $Var(X+Y) = Var(X)+Var(Y)+2Cov(X,Y) $ 이고 독립일 때 공분산은 0 임을 고려한다면, 이항확률변수는 베르누이 시행을 하고 독립시행입니다. 따라서 $ Var(X+Y) = Var(X)+Var(Y) $ 라 할 수 있습니다.

$ Var(X_i) = p(1-p) $ 이므로 $ Var(X)$ 는 p(1-p)를 n번 더한 것입니다. 따라서 이항확률변수의 분산은 아래와 같이 나타납니다.

$$ Var(X) = Var(X_1+X_2+ ... +X_n) = np(1-p)$$

따라서, 표준편차는 아래와 같이 표현할 수 있습니다.

$$ SD(X) = \sqrt{Var(X)} = \sqrt{np(1-p)} $$

3. 베르누이분포 vs 이항분포

베르누이분포와 이항분포를 비교 정리하면 아래와 같습니다.

n=1 인 이항분포가 베르누이 분포라 생각하면 됩니다.

	베르누이 분포	이항분포
확률변수	$ X_1$	$ X = X_1+X_2+ ... + X_n $
확률질량함수 $f(x)$	$ p^x(1-p)^{1-x} , x = 0,1 $	$ \dbinom{n}{x} p^x(1-p)^{n-x} , x = 0,1,2,...,n $
확률분포 표시	$X \backsim B(p)$	$ X \backsim B(n,p) $
기대값 $E(X)$	$p$	$np$
분산 $Var(X)$	$p(1-p)$	$np(1-p)$
표준편차 $SD(X)$	$ \sqrt {p(1-p)} $	$ \sqrt {np(1-p)}$

확률분포의 분류

'통계학 이야기' 카테고리의 다른 글

44. 초기하 분포(Hypergeometric Distribution) - 이산확률분포 (1)	2023.10.26
43. R을 이용한 확률분포 - 이항분포 구하기 (0)	2023.10.25
41. 확률분포의 분류 (1)	2023.10.23
40. 확률변수의 공분산과 상관계수 (1)	2023.10.22
39. 확률분포 - 결합분포&주변분포 (2)	2023.10.20

'통계학 이야기' Related Articles

생각 작업실 The atelier of thinking

42. 베르누이분포 & 이항분포 (이산확률분포) 본문

42. 베르누이분포 & 이항분포 (이산확률분포)

Chapter 42. 베르누이분포 & 이항분포

1. 베르누이분포 ( Bernoulli Distribution)

2. 이항분포(Binomial Distribution)

3. 베르누이분포 vs 이항분포

'통계학 이야기' 카테고리의 다른 글

티스토리툴바