44. 초기하 분포(Hypergeometric Distribution)

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

생각 작업실 The atelier of thinking

44. 초기하 분포(Hypergeometric Distribution) - 이산확률분포 본문

통계학 이야기

44. 초기하 분포(Hypergeometric Distribution) - 이산확률분포

knowledge-seeker 2023. 10. 26. 12:26

Chapter 44. 초기하분포(Hypergeometric Distribution)

1. 초기하분포 (Hypergeometric Distribution)의 정의

초기하분포는 이항분포와 비슷한 분포이지만, 복원추출이 아닌 비복원추출에서의 확률분포입니다.

유한모집단이 두 그룹으로 나누어져 있고 표본을 비복원으로 추출할 때, 특정 그룹에서 뽑힌 표본의 수에 대한 확률분포입니다. 이항분포에서 성공과 실패 두 그룹에서 뽑는 것은 같지만, 비복원추출이고 각 시행은 독립이 아니라는 점에 차이가 있습니다.

2. 초기하분포 확률변수

크기가 N인 모집단이 크기가 M과 N-M인 두 개의 부모집단 (A,B)로 나누어진 경우,

n개의 표본을 비복원으로 추출할 때, 부모집단(A)에서 추출될 표본의 수가 확률변수 입니다.

A에서 추출되면 1, 다른집단에서 추출되면 0 으로 표시합니다. 즉, n개의 합이 A에서 추출될 표본의 수가 되고, 이것이 확률변수입니다.

확률변수는 이항분포와 같지만, 추출과정은 독립적이지 않다는 것이 차이점입니다.

3. 초기하 분포 확률질량함수

확률질량함수를 아래의 예제로 부터 유도해보겠습니다.

◈ 예제 : 6개가 정상품과 4개의 불량품이 있는 상자에서 임의로 3개의 제품을 비복원 추출한 경우에

3개 중 1개가 불량품일 확률은 ?

3개 중 1개가 불량품일 사건은 { (불량,정상,정상), (정상,불량,정상),(정상,정상,불량) } 으로 나타납니다.

각각의 확률을 구하면,

$P(불량,정상,정상) = \frac{4}{10} \times \frac{6}{9} \times \frac{5}{8}$

$P(정상,불량,정상) = \frac{6}{10} \times \frac{4}{9} \times \frac{5}{8}$

$P(정상,정상,불량) = \frac{6}{10} \times \frac{5}{9} \times \frac{4}{8}$

세 확률을 더하면 3개 중 1개가 불량품인 사건의 확률을 구할 수 있습니다.

위 각 확률은 분자는 4 X 5 X 6, 분모는 10 X 9 X 8 이므로 아래와 같이 표현할 수 있습니다.

$3 \times \frac{ 6 \times 5 \times 4 }{10 \times 9 \times 8 } = \frac{1}{2}$

위 식을 분리해서 하나씩 살펴보면,

앞의 3은 위치 중 하나를 선택해 "불량"을 대입하는 것입니다. 이는 조합공식을 이용해 구할 수 있습니다.

$\dbinom{3}{1} = \frac{3!}{1!(3-1)!} = 3$

분자를 이루는 4는 불량품 4개에서 1개를 비복원 추출나열하는 방법으로 순열공식을 이용해 구할 수 있습니다.

$\frac{4!}{(4-1)!} = 4$

분자를 이루는 6 X 5 는 정상품 6개에서 2개를 비복원 추출 나열하는 방법으로 이것도 순열공식을 이용해 구할 수 있습니다.

$\frac{6!}{(6-2)!} = 6 \times 5$

분모는 10개에서 3개를 비복원 추출 나열하는 방법으로 아래와 같이 표현할 수 있습니다.

$\frac{10!}{(10-3)!} = 10 \times 9 \times 8$

확률 계산식에 이를 적용하면, 아래와 같이 나타낼 수 있습니다.

$P(X=1) = \frac{3!}{1!(3-1)!} \frac { \frac{4!}{(4-1)!} \frac{6!}{(6-2)!}} { \frac{10!}{(10-3)!}}$

$\frac {3!}{1!(3-1)!}$ 를 정리하면 아래와 같습니다.

$P(X=1) = \frac{\frac{4!}{1!(4-1)!} \frac{6!}{2!(6-2)!}}{\frac{10!}{3!(10-3)!}}$

이 식은 각각의 조합이 됩니다. 따라서 아래와 같이 표현할 수 있습니다.

$P(X=1) = \frac{ \dbinom{4}{1} \dbinom{6}{2} }{ \dbinom{10}{3}}$

이를 확률질량함수로 나타내면, 아래와 같습니다.

$f(x) = \frac{ \dbinom{4}{x} \dbinom{6}{3-x} }{ \dbinom{10}{3}}, x=0,1,2,3$

이제 확률질량함수 일반식으로 표현한다면,

모집단 크기 : N , M과 N-M인 두 개의 부모집단, n : 추출될 표본의 수

$f(x) = \frac{ \dbinom{M}{x} \dbinom{N-M}{n-x} }{ \dbinom{N}{n}}, x=0,1,2,..,n$

단, x는 특정집단의 수보다 많아서는 안됩니다. 위 예제에서 불량품의 총 수는 4개인 데 5개의 불량품을 뽑는 확률은 구할 수 없기 때문입니다. 또한 음수의 값을 갖을 수 없습니다. 그런 의미로

$x= max(0,n-N+M), ..., min(n,M)$

으로 표기하기도 합니다. 대부분의 경우는 0 부터 n까지로 표기해도 무방합니다.

4. 초기화 확률변수의 기대값과 분산

(1) 기대값

초기하 확률변수의 기대값은 각 시행에서 A집단에서 추출되면 1, 다른 집단에서 추출되면 0으로 표시한 베르누이 확률변수의 합으로 표현됩니다.

$X_1+X_2+ ... + X_n = X$

A 1 1 ... 1 ↓

B 0 0 ... 0 A에서 추출된 표본의 수

N 모집단의 크기를 N이라 하고 A집단의 크기 M 이라 할 때, $X_i$ 를 뽑을 확률은 $\frac{M}{N}$ 이 됩니다.

비복원 추출이라 하더라도 추출한 이후의 확률이 바뀌는 것이지 앞의 확률을 모를 때에는 모든 확률은 동일하다고 할 수 있습니다.

따라서 기대값은 아래와 같이 표현할 수 있습니다.

$E(X_i) = \frac{M}{N} = p$

$E(X) = n \frac{M}{N} = np$

이항분포에서와 같은 결과가 나옵니다.

(2) 분산

$Var(X_i) = E(X_i^2) - E(X_i)^2$

$E(X_i^2) = p$

$Var(X_i) = p - p^2 = p(1-p) = \frac{M}{N} \frac{N-M}{N}$

초기하분포가 이항분포와 다른 점은 비복원이므로 각각의 시행이 독립이 아닙니다.

독립이 아니면 공분산이 0 이 아닙니다.

$Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y)$ 을 적용하면,

$Var(X)=Var(X_1+X_2+...+X_n) = \sum_{i} Var(X_i) + 2\sum_{i<j} Cov(X_i,X_j)$

공분산을 따로 살펴보면,

$\sum{i<j}$ 의 의미는 공분산의 갯수는 n개에서 서로다른 2개를 조합한 것이라 볼 수 있습니다.

즉, $\sum{i<j}$ 는 $\dbinom{n}{2} = \frac{n!}{2!(n-2)!}$ 로 구할 수 있습니다.

공분산은 아래의 공식으로 구할 수 있습니다.

$Cov(X_i,X_j) = E(X_i X_j) - E(X_i)E(X_j)$

$X_i$ 나 $X_j$ 는 0 또는 1 의 값을 가지고 있습니다. 값이 0이 하나라도 있으면 0이 되기 때문에 $X_i$ 가 1이고 $X_j$ 가 1일 때 확률만 구하면 됩니다.

$E(X_iX_j) = P(X_i=1, X_j=1) = P(X_i=1)P(X_j=1|X_i =1)$

$P(X_i=1) = \frac{M}{N}$

$P(X_j=1|X_i=1)= \frac{M-1}{N-1}$

$X_i$ 을 실행한 후이므로 각각 1 씩 감소하게 됩니다.

위 내용을 정리하면,

$E(X_i,X_j) = \frac{M}{N} \frac{M-1}{N-1} , E(X_i)= E(X_j) = \frac{M}{N}$

이제 공분산을 구하는 식은 $Cov(X_i,X_j) = E(X_i X_j) - E(X_i)E(X_j) = \frac{M}{N} \frac{M-1}{N-1} - ( \frac{M}{N})^2$ 위 식을 풀어 정리하면, $= \frac{M}{N}(\frac{M-1}{N-1} - \frac{M}{N} ) = \frac{M}{N}(\frac{NM-N-MN+M}{N(N-1)})$ $= - \frac{M}{N}(\frac{N-M}{N(N-1)} = \frac{M}{N} ( \frac{1-\frac{M}{N}}{N-1})$

위 식에 $\frac{M}{N} = p$ 로 바꾸면,

$Cov(X_i,X_j) = - \frac{p(1-p)}{N-1}$

이제 분산 $Var(X)$ 를 구하는 아래 식에 각각 구한 것을 대입해 보겠습니다.

$Var(X)=Var(X_1+X_2+...+X_n) = \sum_{i} Var(X_i) + 2\sum_{i<j} Cov(X_i,X_j)$

$\sum_{i} Var(X_i) = np(1-p) , 2 \sum_{i<j} = 2 \dbinom{n}{2} = 2 \frac{n!}{2!(n-2)!} = n(n-1)$

$Cov(X_i,X_j) = - \frac{p(1-p)}{N-1}$

$Var(X) = np(1-p) - n(n-1) \frac{p(1-p)}{N-1} = np(1-p)(1-\frac{N-n}{N-1})$

위 분산식에서 $\frac{N-n}{N-1}$ 을 유한모집단 수정계수라 부릅니다. 이 계수는 1보다 작습니다.

앞서 이항분포의 분산은 $np(1-p)$ 로 나타납니다. 반면 초기하분포의 분산은 $np(1-p)$ 에 $1-수정계수$ 를 곱한값입니다.

$Var(X) = np(1-p)(1-\frac{N-n}{N-1})$

이는 초기하분포의 분산이 이항분포의 분산보다 작다는 것을 의미합니다.

분산은 퍼져있는 정도를 나타내는 데 분산이 작다는 것은 변동성이 적다는 의미입니다. 그만큼 안정적인 셩채라고 볼 수 있습니다. 따라서 초기하분포가 이항분포보다 좀 더 좋은 성질을 가지고 있다는 의미입니다.

다만 초기하분포는 이항분포에 비해 다루기가 조금 어렵다보니 이항분포로 설명하는 경우가 많을 뿐입니다.

5. 초기하분포 vs 이항분포

	초기하분포	이항분포
확률변수	$X = X_1+X_2+ ... + X_n$	$X = X_1+X_2+ ... + X_n$
확률질량함수 $f(x)$	$\frac{ \dbinom{M}{x} \dbinom{N-M}{n-x} }{ \dbinom{N}{n}}, x=0,1,2,..,n$	$\dbinom{n}{x} p^x(1-p)^{n-x} , x = 0,1,2,...,n$
확률분포 표시	$X \backsim HYP(N,K,n)$	$X \backsim B(n,p)$
기대값 $E(X)$	$np$	$np$
분산 $Var(X)$	$np(1-p)(1-\frac{N-n}{N-1})$	$np(1-p)$
표준편차 $SD(X)$	$\sqrt {p(1-p)(1-\frac{N-n}{N-1})}$	$\sqrt {np(1-p)}$

확률분포의 분류

'통계학 이야기' 카테고리의 다른 글

46. 포아송분포(Poisson Distribution) - 이산확률분포 (1)	2023.10.27
45. R을 이용한 확률분포 - 초기하분포 구하기 (1)	2023.10.26
43. R을 이용한 확률분포 - 이항분포 구하기 (0)	2023.10.25
42. 베르누이분포 & 이항분포 (이산확률분포) (0)	2023.10.24
41. 확률분포의 분류 (1)	2023.10.23