생각 작업실 The atelier of thinking

44. 초기하 분포(Hypergeometric Distribution) - 이산확률분포 본문

통계학 이야기

44. 초기하 분포(Hypergeometric Distribution) - 이산확률분포

knowledge-seeker 2023. 10. 26. 12:26

Chapter 44. 초기하분포(Hypergeometric Distribution)

 

1. 초기하분포 (Hypergeometric Distribution)의 정의

 

초기하분포는 이항분포와 비슷한 분포이지만, 복원추출이 아닌 비복원추출에서의 확률분포입니다.

유한모집단이 두 그룹으로 나누어져 있고 표본을 비복원으로 추출할 때, 특정 그룹에서 뽑힌 표본의 수에 대한 확률분포입니다.  이항분포에서 성공과 실패 두 그룹에서 뽑는 것은 같지만, 비복원추출이고 각 시행은 독립이 아니라는 점에 차이가 있습니다.

 

2. 초기하분포 확률변수

 

크기가 N인 모집단이 크기가 M과 N-M인 두 개의 부모집단 (A,B)로 나누어진 경우,

n개의 표본을 비복원으로 추출할 때, 부모집단(A)에서 추출될 표본의 수가 확률변수 입니다.

A에서 추출되면 1, 다른집단에서 추출되면 0 으로 표시합니다. 즉, n개의 합이 A에서 추출될 표본의 수가 되고, 이것이 확률변수입니다.

확률변수는 이항분포와 같지만, 추출과정은 독립적이지 않다는 것이 차이점입니다.

 

3. 초기하 분포 확률질량함수

확률질량함수를 아래의 예제로 부터 유도해보겠습니다.

 

◈ 예제 : 6개가 정상품과 4개의 불량품이 있는 상자에서 임의로 3개의 제품을 비복원 추출한 경우에         

              3개 중 1개가 불량품일 확률은 ?

 

 

3개 중 1개가 불량품일 사건은  { (불량,정상,정상), (정상,불량,정상),(정상,정상,불량) } 으로 나타납니다.

각각의 확률을 구하면,

 

$$ P(불량,정상,정상) = \frac{4}{10} \times \frac{6}{9} \times \frac{5}{8} $$

$$ P(정상,불량,정상) = \frac{6}{10} \times \frac{4}{9} \times \frac{5}{8} $$

$$ P(정상,정상,불량) = \frac{6}{10} \times \frac{5}{9} \times \frac{4}{8} $$

 

세 확률을 더하면 3개 중 1개가 불량품인 사건의 확률을 구할 수 있습니다.

위 각 확률은 분자는 4 X 5 X 6, 분모는 10 X 9 X 8 이므로 아래와 같이 표현할 수 있습니다.

 

$$ 3 \times \frac{ 6 \times 5 \times 4 }{10 \times 9 \times 8 } = \frac{1}{2} $$

 

위 식을 분리해서 하나씩 살펴보면,

 

 앞의 3은 위치 중 하나를 선택해 "불량"을 대입하는 것입니다. 이는 조합공식을 이용해 구할 수 있습니다.

$$ \dbinom{3}{1} = \frac{3!}{1!(3-1)!} = 3  $$

 

분자를 이루는 4는 불량품 4개에서 1개를 비복원 추출나열하는 방법으로 순열공식을 이용해 구할 수 있습니다.

$$ \frac{4!}{(4-1)!} = 4 $$

분자를 이루는 6 X 5 는 정상품 6개에서 2개를 비복원 추출 나열하는 방법으로 이것도 순열공식을 이용해 구할 수 있습니다.

$$ \frac{6!}{(6-2)!} = 6 \times 5 $$

분모는 10개에서 3개를 비복원 추출 나열하는 방법으로 아래와 같이 표현할 수 있습니다.

$$ \frac{10!}{(10-3)!} = 10 \times 9 \times 8 $$

 

확률 계산식에 이를 적용하면, 아래와 같이 나타낼 수 있습니다.

 

$$ P(X=1) = \frac{3!}{1!(3-1)!} \frac { \frac{4!}{(4-1)!} \frac{6!}{(6-2)!}} { \frac{10!}{(10-3)!}} $$

 

$ \frac {3!}{1!(3-1)!} $ 를 정리하면 아래와 같습니다.

 

$$ P(X=1) = \frac{\frac{4!}{1!(4-1)!} \frac{6!}{2!(6-2)!}}{\frac{10!}{3!(10-3)!}} $$

 

이 식은 각각의 조합이 됩니다. 따라서 아래와 같이 표현할 수 있습니다.

 

$$ P(X=1) = \frac{ \dbinom{4}{1} \dbinom{6}{2} }{ \dbinom{10}{3}} $$

 

이를 확률질량함수로 나타내면, 아래와 같습니다.

 

$$ f(x) = \frac{ \dbinom{4}{x} \dbinom{6}{3-x} }{ \dbinom{10}{3}}, x=0,1,2,3 $$

 

이제 확률질량함수 일반식으로 표현한다면,

 

모집단 크기 : N , M과 N-M인 두 개의 부모집단, n : 추출될 표본의 수

 

$$ f(x) = \frac{ \dbinom{M}{x} \dbinom{N-M}{n-x} }{ \dbinom{N}{n}}, x=0,1,2,..,n $$

 

단, x는 특정집단의 수보다 많아서는 안됩니다. 위 예제에서 불량품의 총 수는 4개인 데 5개의 불량품을 뽑는 확률은 구할 수 없기 때문입니다. 또한 음수의 값을 갖을 수 없습니다. 그런 의미로

$$ x= max(0,n-N+M), ..., min(n,M) $$

으로 표기하기도 합니다. 대부분의 경우는 0 부터 n까지로 표기해도 무방합니다.

 

4. 초기화 확률변수의 기대값과 분산

 

(1) 기대값

 

초기하 확률변수의 기대값은 각 시행에서 A집단에서 추출되면 1, 다른 집단에서 추출되면 0으로 표시한 베르누이 확률변수의 합으로 표현됩니다.

 

 $$     X_1+X_2+ ... + X_n = X $$

A     1      1     ...      1            ↓ 

                                  B     0      0     ...      0           A에서 추출된 표본의 수  

 

 N 모집단의 크기를 N이라 하고 A집단의 크기 M 이라 할 때, $X_i$를 뽑을 확률은 $ \frac{M}{N}$이 됩니다.

 비복원 추출이라 하더라도 추출한 이후의 확률이 바뀌는 것이지 앞의 확률을 모를 때에는 모든 확률은 동일하다고 할 수 있습니다.

 

따라서 기대값은 아래와 같이 표현할 수 있습니다.

$$ E(X_i) = \frac{M}{N} = p $$

$$ E(X) = n \frac{M}{N} = np $$

 

이항분포에서와 같은 결과가 나옵니다.

 

(2) 분산

 

$$ Var(X_i) = E(X_i^2) - E(X_i)^2 $$

$$ E(X_i^2) = p $$

$$ Var(X_i) = p - p^2 = p(1-p) = \frac{M}{N} \frac{N-M}{N} $$

 

초기하분포가 이항분포와 다른 점은 비복원이므로 각각의 시행이 독립이 아닙니다.

독립이 아니면 공분산이 0 이 아닙니다.

$ Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y) $ 을 적용하면,

 

$$ Var(X)=Var(X_1+X_2+...+X_n) = \sum_{i} Var(X_i) + 2\sum_{i<j} Cov(X_i,X_j) $$

 

공분산을 따로 살펴보면,

$ \sum{i<j} $ 의 의미는 공분산의 갯수는 n개에서 서로다른 2개를 조합한 것이라 볼 수 있습니다.

즉, $ \sum{i<j} $ 는 $ \dbinom{n}{2} = \frac{n!}{2!(n-2)!} $ 로 구할 수 있습니다.

공분산은 아래의 공식으로 구할 수 있습니다.

$$ Cov(X_i,X_j) = E(X_i X_j) - E(X_i)E(X_j) $$

$X_i$ 나 $X_j$는 0 또는 1 의 값을 가지고 있습니다. 값이 0이 하나라도 있으면 0이 되기 때문에 $X_i$가 1이고 $X_j$가 1일 때 확률만 구하면 됩니다.

 

$$ E(X_iX_j) = P(X_i=1, X_j=1) = P(X_i=1)P(X_j=1|X_i =1) $$

$$ P(X_i=1) = \frac{M}{N} $$

$$ P(X_j=1|X_i=1)= \frac{M-1}{N-1} $$

$X_i$을 실행한 후이므로 각각 1 씩 감소하게 됩니다.

위 내용을 정리하면,

$$ E(X_i,X_j) = \frac{M}{N} \frac{M-1}{N-1} ,  E(X_i)= E(X_j) = \frac{M}{N} $$

 

이제 공분산을 구하는 식은$$ Cov(X_i,X_j) = E(X_i X_j) - E(X_i)E(X_j) = \frac{M}{N} \frac{M-1}{N-1} - ( \frac{M}{N})^2 $$위 식을 풀어 정리하면,$$ = \frac{M}{N}(\frac{M-1}{N-1} - \frac{M}{N} ) = \frac{M}{N}(\frac{NM-N-MN+M}{N(N-1)}) $$$$ = - \frac{M}{N}(\frac{N-M}{N(N-1)} = \frac{M}{N} ( \frac{1-\frac{M}{N}}{N-1}) $$

위 식에 $\frac{M}{N} = p $ 로 바꾸면,

$$ Cov(X_i,X_j) = - \frac{p(1-p)}{N-1} $$

 

이제 분산 $Var(X)$ 를 구하는 아래 식에 각각 구한 것을 대입해 보겠습니다.

 

$$ Var(X)=Var(X_1+X_2+...+X_n) = \sum_{i} Var(X_i) + 2\sum_{i<j} Cov(X_i,X_j) $$

 

$$ \sum_{i} Var(X_i) = np(1-p) , 2 \sum_{i<j} = 2 \dbinom{n}{2} = 2 \frac{n!}{2!(n-2)!} = n(n-1) $$

$$ Cov(X_i,X_j) = - \frac{p(1-p)}{N-1} $$

 

$$Var(X) = np(1-p) - n(n-1) \frac{p(1-p)}{N-1} = np(1-p)(1-\frac{N-n}{N-1}) $$

 

위 분산식에서 $ \frac{N-n}{N-1} $ 을 유한모집단 수정계수라 부릅니다. 이 계수는 1보다 작습니다.

 

앞서 이항분포의 분산은 $np(1-p)$ 로 나타납니다. 반면 초기하분포의 분산은 $np(1-p)$ 에 $1-수정계수$를 곱한값입니다.

 

$$Var(X) = np(1-p)(1-\frac{N-n}{N-1}) $$

 

이는 초기하분포의 분산이 이항분포의 분산보다 작다는 것을 의미합니다.

분산은 퍼져있는 정도를 나타내는 데 분산이 작다는 것은 변동성이 적다는 의미입니다. 그만큼 안정적인 셩채라고 볼 수 있습니다. 따라서 초기하분포가 이항분포보다 좀 더 좋은 성질을 가지고 있다는 의미입니다.

다만 초기하분포는 이항분포에 비해 다루기가 조금 어렵다보니 이항분포로 설명하는 경우가 많을 뿐입니다.

 

 

5. 초기하분포 vs 이항분포

 

  초기하분포 이항분포
확률변수 $ X = X_1+X_2+ ... + X_n $ $ X = X_1+X_2+ ... + X_n $
확률질량함수 $f(x)$ $ \frac{ \dbinom{M}{x} \dbinom{N-M}{n-x} }{ \dbinom{N}{n}}, x=0,1,2,..,n $ $ \dbinom{n}{x} p^x(1-p)^{n-x} , x = 0,1,2,...,n $
확률분포 표시 $X \backsim HYP(N,K,n)$ $ X \backsim B(n,p) $
기대값  $E(X)$ $np$ $np$
분산  $Var(X)$ $np(1-p)(1-\frac{N-n}{N-1}) $ $np(1-p)$
표준편차 $SD(X)$ $ \sqrt {p(1-p)(1-\frac{N-n}{N-1})} $ $ \sqrt {np(1-p)}$

 

확률분포의 분류