생각 작업실 The atelier of thinking

44. 초기하 분포(Hypergeometric Distribution) - 이산확률분포 본문

통계학 이야기

44. 초기하 분포(Hypergeometric Distribution) - 이산확률분포

knowledge-seeker 2023. 10. 26. 12:26

Chapter 44. 초기하분포(Hypergeometric Distribution)

 

1. 초기하분포 (Hypergeometric Distribution)의 정의

 

초기하분포는 이항분포와 비슷한 분포이지만, 복원추출이 아닌 비복원추출에서의 확률분포입니다.

유한모집단이 두 그룹으로 나누어져 있고 표본을 비복원으로 추출할 때, 특정 그룹에서 뽑힌 표본의 수에 대한 확률분포입니다.  이항분포에서 성공과 실패 두 그룹에서 뽑는 것은 같지만, 비복원추출이고 각 시행은 독립이 아니라는 점에 차이가 있습니다.

 

2. 초기하분포 확률변수

 

크기가 N인 모집단이 크기가 M과 N-M인 두 개의 부모집단 (A,B)로 나누어진 경우,

n개의 표본을 비복원으로 추출할 때, 부모집단(A)에서 추출될 표본의 수가 확률변수 입니다.

A에서 추출되면 1, 다른집단에서 추출되면 0 으로 표시합니다. 즉, n개의 합이 A에서 추출될 표본의 수가 되고, 이것이 확률변수입니다.

확률변수는 이항분포와 같지만, 추출과정은 독립적이지 않다는 것이 차이점입니다.

 

3. 초기하 분포 확률질량함수

확률질량함수를 아래의 예제로 부터 유도해보겠습니다.

 

◈ 예제 : 6개가 정상품과 4개의 불량품이 있는 상자에서 임의로 3개의 제품을 비복원 추출한 경우에         

              3개 중 1개가 불량품일 확률은 ?

 

 

3개 중 1개가 불량품일 사건은  { (불량,정상,정상), (정상,불량,정상),(정상,정상,불량) } 으로 나타납니다.

각각의 확률을 구하면,

 

P(,,)=410×69×58

P(,,)=610×49×58

P(,,)=610×59×48

 

세 확률을 더하면 3개 중 1개가 불량품인 사건의 확률을 구할 수 있습니다.

위 각 확률은 분자는 4 X 5 X 6, 분모는 10 X 9 X 8 이므로 아래와 같이 표현할 수 있습니다.

 

3×6×5×410×9×8=12

 

위 식을 분리해서 하나씩 살펴보면,

 

 앞의 3은 위치 중 하나를 선택해 "불량"을 대입하는 것입니다. 이는 조합공식을 이용해 구할 수 있습니다.

\dbinom{3}{1} = \frac{3!}{1!(3-1)!} = 3 

 

분자를 이루는 4는 불량품 4개에서 1개를 비복원 추출나열하는 방법으로 순열공식을 이용해 구할 수 있습니다.

\frac{4!}{(4-1)!} = 4

분자를 이루는 6 X 5 는 정상품 6개에서 2개를 비복원 추출 나열하는 방법으로 이것도 순열공식을 이용해 구할 수 있습니다.

\frac{6!}{(6-2)!} = 6 \times 5

분모는 10개에서 3개를 비복원 추출 나열하는 방법으로 아래와 같이 표현할 수 있습니다.

\frac{10!}{(10-3)!} = 10 \times 9 \times 8

 

확률 계산식에 이를 적용하면, 아래와 같이 나타낼 수 있습니다.

 

P(X=1) = \frac{3!}{1!(3-1)!} \frac { \frac{4!}{(4-1)!} \frac{6!}{(6-2)!}} { \frac{10!}{(10-3)!}}

 

\frac {3!}{1!(3-1)!} 를 정리하면 아래와 같습니다.

 

 P(X=1) = \frac{\frac{4!}{1!(4-1)!} \frac{6!}{2!(6-2)!}}{\frac{10!}{3!(10-3)!}} 

 

이 식은 각각의 조합이 됩니다. 따라서 아래와 같이 표현할 수 있습니다.

 

P(X=1) = \frac{ \dbinom{4}{1} \dbinom{6}{2} }{ \dbinom{10}{3}}

 

이를 확률질량함수로 나타내면, 아래와 같습니다.

 

f(x) = \frac{ \dbinom{4}{x} \dbinom{6}{3-x} }{ \dbinom{10}{3}}, x=0,1,2,3

 

이제 확률질량함수 일반식으로 표현한다면,

 

모집단 크기 : N , M과 N-M인 두 개의 부모집단, n : 추출될 표본의 수

 

f(x) = \frac{ \dbinom{M}{x} \dbinom{N-M}{n-x} }{ \dbinom{N}{n}}, x=0,1,2,..,n

 

단, x는 특정집단의 수보다 많아서는 안됩니다. 위 예제에서 불량품의 총 수는 4개인 데 5개의 불량품을 뽑는 확률은 구할 수 없기 때문입니다. 또한 음수의 값을 갖을 수 없습니다. 그런 의미로

x= max(0,n-N+M), ..., min(n,M)

으로 표기하기도 합니다. 대부분의 경우는 0 부터 n까지로 표기해도 무방합니다.

 

4. 초기화 확률변수의 기대값과 분산

 

(1) 기대값

 

초기하 확률변수의 기대값은 각 시행에서 A집단에서 추출되면 1, 다른 집단에서 추출되면 0으로 표시한 베르누이 확률변수의 합으로 표현됩니다.

 

      X_1+X_2+ ... + X_n = X

A     1      1     ...      1            ↓ 

                                  B     0      0     ...      0           A에서 추출된 표본의 수  

 

 N 모집단의 크기를 N이라 하고 A집단의 크기 M 이라 할 때, X_i를 뽑을 확률은 \frac{M}{N}이 됩니다.

 비복원 추출이라 하더라도 추출한 이후의 확률이 바뀌는 것이지 앞의 확률을 모를 때에는 모든 확률은 동일하다고 할 수 있습니다.

 

따라서 기대값은 아래와 같이 표현할 수 있습니다.

E(X_i) = \frac{M}{N} = p

E(X) = n \frac{M}{N} = np

 

이항분포에서와 같은 결과가 나옵니다.

 

(2) 분산

 

Var(X_i) = E(X_i^2) - E(X_i)^2

E(X_i^2) = p

Var(X_i) = p - p^2 = p(1-p) = \frac{M}{N} \frac{N-M}{N}

 

초기하분포가 이항분포와 다른 점은 비복원이므로 각각의 시행이 독립이 아닙니다.

독립이 아니면 공분산이 0 이 아닙니다.

Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y) 을 적용하면,

 

Var(X)=Var(X_1+X_2+...+X_n) = \sum_{i} Var(X_i) + 2\sum_{i<j} Cov(X_i,X_j)

 

공분산을 따로 살펴보면,

\sum{i<j} 의 의미는 공분산의 갯수는 n개에서 서로다른 2개를 조합한 것이라 볼 수 있습니다.

즉, \sum{i<j} \dbinom{n}{2} = \frac{n!}{2!(n-2)!} 로 구할 수 있습니다.

공분산은 아래의 공식으로 구할 수 있습니다.

Cov(X_i,X_j) = E(X_i X_j) - E(X_i)E(X_j)

X_iX_j는 0 또는 1 의 값을 가지고 있습니다. 값이 0이 하나라도 있으면 0이 되기 때문에 X_i가 1이고 X_j가 1일 때 확률만 구하면 됩니다.

 

E(X_iX_j) = P(X_i=1, X_j=1) = P(X_i=1)P(X_j=1|X_i =1)

P(X_i=1) = \frac{M}{N}

P(X_j=1|X_i=1)= \frac{M-1}{N-1}

X_i을 실행한 후이므로 각각 1 씩 감소하게 됩니다.

위 내용을 정리하면,

E(X_i,X_j) = \frac{M}{N} \frac{M-1}{N-1} ,  E(X_i)= E(X_j) = \frac{M}{N}

 

이제 공분산을 구하는 식은 Cov(X_i,X_j) = E(X_i X_j) - E(X_i)E(X_j) = \frac{M}{N} \frac{M-1}{N-1} - ( \frac{M}{N})^2 위 식을 풀어 정리하면, = \frac{M}{N}(\frac{M-1}{N-1} - \frac{M}{N} ) = \frac{M}{N}(\frac{NM-N-MN+M}{N(N-1)}) = - \frac{M}{N}(\frac{N-M}{N(N-1)} = \frac{M}{N} ( \frac{1-\frac{M}{N}}{N-1})

위 식에 \frac{M}{N} = p 로 바꾸면,

Cov(X_i,X_j) = - \frac{p(1-p)}{N-1}

 

이제 분산 Var(X) 를 구하는 아래 식에 각각 구한 것을 대입해 보겠습니다.

 

Var(X)=Var(X_1+X_2+...+X_n) = \sum_{i} Var(X_i) + 2\sum_{i<j} Cov(X_i,X_j)

 

\sum_{i} Var(X_i) = np(1-p) , 2 \sum_{i<j} = 2 \dbinom{n}{2} = 2 \frac{n!}{2!(n-2)!} = n(n-1)

Cov(X_i,X_j) = - \frac{p(1-p)}{N-1}

 

Var(X) = np(1-p) - n(n-1) \frac{p(1-p)}{N-1} = np(1-p)(1-\frac{N-n}{N-1})

 

위 분산식에서 \frac{N-n}{N-1} 을 유한모집단 수정계수라 부릅니다. 이 계수는 1보다 작습니다.

 

앞서 이항분포의 분산은 np(1-p) 로 나타납니다. 반면 초기하분포의 분산은 np(1-p)1-수정계수를 곱한값입니다.

 

Var(X) = np(1-p)(1-\frac{N-n}{N-1})

 

이는 초기하분포의 분산이 이항분포의 분산보다 작다는 것을 의미합니다.

분산은 퍼져있는 정도를 나타내는 데 분산이 작다는 것은 변동성이 적다는 의미입니다. 그만큼 안정적인 셩채라고 볼 수 있습니다. 따라서 초기하분포가 이항분포보다 좀 더 좋은 성질을 가지고 있다는 의미입니다.

다만 초기하분포는 이항분포에 비해 다루기가 조금 어렵다보니 이항분포로 설명하는 경우가 많을 뿐입니다.

 

 

5. 초기하분포 vs 이항분포

 

  초기하분포 이항분포
확률변수 X = X_1+X_2+ ... + X_n X = X_1+X_2+ ... + X_n
확률질량함수 f(x) \frac{ \dbinom{M}{x} \dbinom{N-M}{n-x} }{ \dbinom{N}{n}}, x=0,1,2,..,n \dbinom{n}{x} p^x(1-p)^{n-x} , x = 0,1,2,...,n
확률분포 표시 X \backsim HYP(N,K,n) X \backsim B(n,p)
기대값  E(X) np np
분산  Var(X) np(1-p)(1-\frac{N-n}{N-1}) np(1-p)
표준편차 SD(X) \sqrt {p(1-p)(1-\frac{N-n}{N-1})} \sqrt {np(1-p)}

 

확률분포의 분류