일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- css
- version 2
- 경제학
- 변량효과모형
- JavaScript
- 오블완
- 데이터 과학
- 분산분석
- 고정효과모형
- r
- 가설검정
- 반복있음
- 정규분포
- html
- 이항분포
- version 1
- 반복없음
- 이원배치 분산분석
- 통계학
- 인공지능
- 산점도
- 변동분해
- 확률
- 티스토리챌린지
- 추정
- 두 평균의 비교
- 혼합효과모형
- 에세이
- 회귀분석
- 글쓰기
- Today
- Total
생각 작업실 The atelier of thinking
42. 베르누이분포 & 이항분포 (이산확률분포) 본문
Chapter 42. 베르누이분포 & 이항분포
1. 베르누이분포 ( Bernoulli Distribution)
(1) 베르누이 시행(Bernoulli Trial)
두 가지의 결과만을 가지는 실험을 말합니다. 이러한 시행에서 각각의 결과를 성공(success)과 실패(failure)로 정의합니다. ( S/F )
예를 들어, 동전을 한 번 던져서 앞면이나 뒷면이 나오게 하는 것도 베르누이 시행입니다.
베르누이 시행은 아래와 같이 3가지의 특징이 있습니다.
① 각 실험에서 발생 가능한 결과는 단 2가지이다. 예) 성공/실패, 앞면/뒷면
② 각 실험이 독립적으로 수행한다.
③ 모든 실험에서 결과의 확률은 항상 동일하다.
◈ 예제 : 불량품 검사 I
10개의 제품 중 3개가 불량품일 때,
▶ 2 개를 복원추출하는 경우
① 실험에서 발생 가능한 결과는 2가지 이다. 정상/불량
② 각 실험이 독립적이다.
③ 모든 실험에서 결과의 확률은 항상 동일하다.
$$ P(S_1, S_2) = P(S_1) P(S_2|S_1) = \frac{3}{10} \times \frac{3}{10} $$
위 조건을 모두 충족하므로 베르누이 시행이라 할 수 있습니다.
▶ 2 개를 비복원추출하는 경우
$$ P(S_1, S_2) = P(S_1) P(S_2|S_1) = \frac{3}{10} \times \frac{2}{9} $$
모든 실험에서 결과의 확률은 항상 동일하다는 조건을 충족하지 못하므로 이는 베르누이 시행이 아닙니다.
◈ 예제 : 불량품 검사 II
10,000개의 제품 중 3,000개가 불량품일 때,
▶ 2 개를 복원추출하는 경우 → 베르누이 시행
$$ P(S_1, S_2) = P(S_1) P(S_2|S_1) = \frac{3000}{10000} \times \frac{3000}{10000} $$
▶ 2 개를 비복원추출하는 경우 → ??
$$ P(S_1, S_2) = P(S_1) P(S_2|S_1) = \frac{3000}{10000} \times \frac{2999}{9999} $$
$$ P(S_2) = 0.3 \not= 0.29993 = P(S_2|S_1) \backsimeq P(S_2) $$
※ 모집단이 크고 표본크기가 상대적으로 크지 않은 경우, 비복원 추출도 베르누이 실험을 근사모형으로 사용가능합니다.
(2) 베르누이 확률변수 (Bernoulli Random Variable)
베르누이 시행에서 성공을 1, 실패를 0으로 정의한 이항 확률변수 중 성공과 실패 중 하나의 값을 가지는 경우를 말합니다. 베르누이 확률변수는 두 값 중 하나만 가질 수 있으므로 이산확률변수(discrete random variable)입니다.
확률변수란 원소를 숫자로 변환시켜 주는 것입니다.
모수(성공할 확률)가 p인 베르누이 시행을 하였을 때, 성공이면 1로 실패하면 0으로 변환합니다.
일종의 지시함수(indicator function)로 베르누이 확률변수는 0과 1 이 됩니다.
(3) 베르누이 확률분포( Bernoulli Distribution)
확률분포는 확률변수가 가질 수 있는 모든 값과 그 값이 나타날 확률을 나타내는 함수입니다.
베르누이 확률분포는 확률변수 0과 1 에 대한 성공(1) 확률 p와 실패확률 1-p 로 이루어져 있습니다.
예를 들면, 동전던지기의 경우 P(X=0) = P(X=1)=0.5 로 나타낼 수 있습니다. 이 때 확률의 법칙에 따라서 확률분포에 나온 값을 모두 합할 경우 1이 되어야 합니다. 동전던지기와 같이 2가지 가능한 결과물을 가진 확률변수의 확률분포를 베르누이 분포라고 합니다.
베르누이 확률변수의 확률질량함수는 아래와 같이 표현할 수 있습니다.
$$ f(x) = P(X=x) = p^x(1-p)^{1-x} , x = 0,1 $$
베르누이 분포는 $ X \sim B(p) $ 와 같이 나타냅니다.
(4) 베르누이 확률변수의 기대값과 분산
앞서 기대값을 구하는 식은,
$$ E(X) = \sum_{x} xf(x_i) $$
베르누이 확률변수는 0 과 1 이고 확률질량함수는 $ f(x) = p^x(1-p)^{1-x} $ 입니다. 이를 적용하면,
$$ E(X) = 0 \times (1-p) + 1 \times p = p $$
입니다.
확률변수의 분산은 $ Var(X) = E(X^2) - E(X)^2 $으로 구할 수 있습니다.
먼저 $E(X^2)을 구하면,
$$ E(X^2) = 0^2 \times (1-p) + 1^2 \times p = p $$
위 결과를 분산을 구하는 식에 적용하면, 아래와 같습니다.
$$ Var(X) = E(X^2) - E(X)^2 = p - p^2 = p(1-p) $$
따라서 , 표분편차는 아래와 같습니다.
$$ SD(X) = \sqrt{Var(X)} = \sqrt{p(1-p)} $$
2. 이항분포(Binomial Distribution)
이항분포는 연속된 n번의 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산확률분포를 말합니다.
이 때의 시행은 베르누이 시행입니다. 따라서, 이항분포는 베르누이 시행으로 부터 유도됩니다.
n=1 일 때의 이항분포는 베르누이 분포입니다.
이항분포는 대표적인 이산확률분포입니다. 이 이항분포의 기초를 이루는 것은 베르누이 시행과 베르누이 확률변수 입니다.
(1) 이항 확률변수 (Binomial Random Variable)
성공할 확률이 p인 베르누이 시행을 n번 반복했을 때, 성공횟수를 X 의 분포는 n개의 베르누이 확률변수 합으로 표시할 수 있습니다.
$$ X_1+X_2+ ... + X_n = X $$
S 1 1 ... 1 ↓
F 0 0 ... 0 성공횟수
여기서 성공 횟수의 합 X 가 이항 확률변수입니다.
$$ X = X_1+X_2+ ... + X_n $$
(2) 이항 확률분포
이항분포는 이항확률변수 X 는 n과 p를 모수로 갖는다는 의미로 아래와 같이 표현합니다.
$$ X \sim B(n , p) $$
이항분포의 확률질량함수는 총 n번의 시행 중 성공한 x번의 확률을 구하는 것이라 할 수 있습니다.
$$ f(x) = \dbinom{n}{x} p^x(1-p)^{n-x} , x = 0,1,2,...,n $$
위 이항분포의 확률질량함수는 이항공식이라 부르기도 합니다.
n에서 x를 구하는 것은 경우의 수에서 조합에 해당됩니다. 조합을 구하는 식은 아래와 같습니다.
$$ _nC_k= \dbinom{n}{k} = \frac{n!}{k!(n-k)!} $$
이를 이항공식에 대입하면, 아래와 같이 나타납니다.
$$ f(x) = \frac{n!}{x!(n-x)!} p^x(1-p)^{n-x} , x = 0,1,2,...,n $$
다만 이항공식은 아래의 조건하에서 성립합니다.
① n의 값은 미리 정해져있다.
② 각 시행은 상호 독립이다.
③ p는 매 시행마다 항상 동일하다.
(3) 이항 확률변수의 기대값과 분산
이항확률변수의 기대값과 분산을 베르누이확률변수의 기대값과 분산에서 유도할 수 있습니다.
기대값의 정리에서 $ E(X+Y) = E(X) + E(Y) $ 임을 고려한다면,
베르누이 확률변수의 기대값과 분산은 $ E(X_i) = p , Var(X_i) = p(1-p) $ 이라 할 때,
이항확률변수의 기대값은,
$$ E(X) = E( X_1 +X_2+ ... + X_n) = E(X_1)+E(X_2) + ... +E(X_n) $$
이라 할 수 있습니다. $E(X_i) = p $ 이므로 p를 n번을 더한 것입니다. 따라서, 이항확률변수의 기대값은 아래와 같이 나타납니다.
$$ E(X) = np $$
이항확률변수의 분산은, 공분산의 성질을 이용하여 유도할 수 있습니다.
공분산의 성질 중 $Var(X+Y) = Var(X)+Var(Y)+2Cov(X,Y) $ 이고 독립일 때 공분산은 0 임을 고려한다면, 이항확률변수는 베르누이 시행을 하고 독립시행입니다. 따라서 $ Var(X+Y) = Var(X)+Var(Y) $ 라 할 수 있습니다.
$ Var(X_i) = p(1-p) $ 이므로 $ Var(X)$ 는 p(1-p)를 n번 더한 것입니다. 따라서 이항확률변수의 분산은 아래와 같이 나타납니다.
$$ Var(X) = Var(X_1+X_2+ ... +X_n) = np(1-p)$$
따라서, 표준편차는 아래와 같이 표현할 수 있습니다.
$$ SD(X) = \sqrt{Var(X)} = \sqrt{np(1-p)} $$
3. 베르누이분포 vs 이항분포
베르누이분포와 이항분포를 비교 정리하면 아래와 같습니다.
n=1 인 이항분포가 베르누이 분포라 생각하면 됩니다.
베르누이 분포 | 이항분포 | |
확률변수 | $ X_1$ | $ X = X_1+X_2+ ... + X_n $ |
확률질량함수 $f(x)$ | $ p^x(1-p)^{1-x} , x = 0,1 $ | $ \dbinom{n}{x} p^x(1-p)^{n-x} , x = 0,1,2,...,n $ |
확률분포 표시 | $X \backsim B(p)$ | $ X \backsim B(n,p) $ |
기대값 $E(X)$ | $p$ | $np$ |
분산 $Var(X)$ | $p(1-p)$ | $np(1-p)$ |
표준편차 $SD(X)$ | $ \sqrt {p(1-p)} $ | $ \sqrt {np(1-p)}$ |
확률분포의 분류
'통계학 이야기' 카테고리의 다른 글
44. 초기하 분포(Hypergeometric Distribution) - 이산확률분포 (1) | 2023.10.26 |
---|---|
43. R을 이용한 확률분포 - 이항분포 구하기 (0) | 2023.10.25 |
41. 확률분포의 분류 (1) | 2023.10.23 |
40. 확률변수의 공분산과 상관계수 (1) | 2023.10.22 |
39. 확률분포 - 결합분포&주변분포 (2) | 2023.10.20 |