일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- r
- css
- 이원배치 분산분석
- 추정
- 반복없음
- 인공지능
- 고정효과모형
- 경제학
- 티스토리챌린지
- 에세이
- 데이터 과학
- 변량효과모형
- 회귀분석
- 정규분포
- 변동분해
- 오블완
- 혼합효과모형
- 산점도
- 가설검정
- 반복있음
- version 1
- version 2
- JavaScript
- 이항분포
- 확률
- 글쓰기
- html
- 통계학
- 두 평균의 비교
- 분산분석
- Today
- Total
생각 작업실 The atelier of thinking
44. 초기하 분포(Hypergeometric Distribution) - 이산확률분포 본문
Chapter 44. 초기하분포(Hypergeometric Distribution)
1. 초기하분포 (Hypergeometric Distribution)의 정의
초기하분포는 이항분포와 비슷한 분포이지만, 복원추출이 아닌 비복원추출에서의 확률분포입니다.
유한모집단이 두 그룹으로 나누어져 있고 표본을 비복원으로 추출할 때, 특정 그룹에서 뽑힌 표본의 수에 대한 확률분포입니다. 이항분포에서 성공과 실패 두 그룹에서 뽑는 것은 같지만, 비복원추출이고 각 시행은 독립이 아니라는 점에 차이가 있습니다.
2. 초기하분포 확률변수
크기가 N인 모집단이 크기가 M과 N-M인 두 개의 부모집단 (A,B)로 나누어진 경우,
n개의 표본을 비복원으로 추출할 때, 부모집단(A)에서 추출될 표본의 수가 확률변수 입니다.
A에서 추출되면 1, 다른집단에서 추출되면 0 으로 표시합니다. 즉, n개의 합이 A에서 추출될 표본의 수가 되고, 이것이 확률변수입니다.
확률변수는 이항분포와 같지만, 추출과정은 독립적이지 않다는 것이 차이점입니다.
3. 초기하 분포 확률질량함수
확률질량함수를 아래의 예제로 부터 유도해보겠습니다.
◈ 예제 : 6개가 정상품과 4개의 불량품이 있는 상자에서 임의로 3개의 제품을 비복원 추출한 경우에
3개 중 1개가 불량품일 확률은 ?
3개 중 1개가 불량품일 사건은 { (불량,정상,정상), (정상,불량,정상),(정상,정상,불량) } 으로 나타납니다.
각각의 확률을 구하면,
$$ P(불량,정상,정상) = \frac{4}{10} \times \frac{6}{9} \times \frac{5}{8} $$
$$ P(정상,불량,정상) = \frac{6}{10} \times \frac{4}{9} \times \frac{5}{8} $$
$$ P(정상,정상,불량) = \frac{6}{10} \times \frac{5}{9} \times \frac{4}{8} $$
세 확률을 더하면 3개 중 1개가 불량품인 사건의 확률을 구할 수 있습니다.
위 각 확률은 분자는 4 X 5 X 6, 분모는 10 X 9 X 8 이므로 아래와 같이 표현할 수 있습니다.
$$ 3 \times \frac{ 6 \times 5 \times 4 }{10 \times 9 \times 8 } = \frac{1}{2} $$
위 식을 분리해서 하나씩 살펴보면,
앞의 3은 위치 중 하나를 선택해 "불량"을 대입하는 것입니다. 이는 조합공식을 이용해 구할 수 있습니다.
$$ \dbinom{3}{1} = \frac{3!}{1!(3-1)!} = 3 $$
분자를 이루는 4는 불량품 4개에서 1개를 비복원 추출나열하는 방법으로 순열공식을 이용해 구할 수 있습니다.
$$ \frac{4!}{(4-1)!} = 4 $$
분자를 이루는 6 X 5 는 정상품 6개에서 2개를 비복원 추출 나열하는 방법으로 이것도 순열공식을 이용해 구할 수 있습니다.
$$ \frac{6!}{(6-2)!} = 6 \times 5 $$
분모는 10개에서 3개를 비복원 추출 나열하는 방법으로 아래와 같이 표현할 수 있습니다.
$$ \frac{10!}{(10-3)!} = 10 \times 9 \times 8 $$
확률 계산식에 이를 적용하면, 아래와 같이 나타낼 수 있습니다.
$$ P(X=1) = \frac{3!}{1!(3-1)!} \frac { \frac{4!}{(4-1)!} \frac{6!}{(6-2)!}} { \frac{10!}{(10-3)!}} $$
$ \frac {3!}{1!(3-1)!} $ 를 정리하면 아래와 같습니다.
$$ P(X=1) = \frac{\frac{4!}{1!(4-1)!} \frac{6!}{2!(6-2)!}}{\frac{10!}{3!(10-3)!}} $$
이 식은 각각의 조합이 됩니다. 따라서 아래와 같이 표현할 수 있습니다.
$$ P(X=1) = \frac{ \dbinom{4}{1} \dbinom{6}{2} }{ \dbinom{10}{3}} $$
이를 확률질량함수로 나타내면, 아래와 같습니다.
$$ f(x) = \frac{ \dbinom{4}{x} \dbinom{6}{3-x} }{ \dbinom{10}{3}}, x=0,1,2,3 $$
이제 확률질량함수 일반식으로 표현한다면,
모집단 크기 : N , M과 N-M인 두 개의 부모집단, n : 추출될 표본의 수
$$ f(x) = \frac{ \dbinom{M}{x} \dbinom{N-M}{n-x} }{ \dbinom{N}{n}}, x=0,1,2,..,n $$
단, x는 특정집단의 수보다 많아서는 안됩니다. 위 예제에서 불량품의 총 수는 4개인 데 5개의 불량품을 뽑는 확률은 구할 수 없기 때문입니다. 또한 음수의 값을 갖을 수 없습니다. 그런 의미로
$$ x= max(0,n-N+M), ..., min(n,M) $$
으로 표기하기도 합니다. 대부분의 경우는 0 부터 n까지로 표기해도 무방합니다.
4. 초기화 확률변수의 기대값과 분산
(1) 기대값
초기하 확률변수의 기대값은 각 시행에서 A집단에서 추출되면 1, 다른 집단에서 추출되면 0으로 표시한 베르누이 확률변수의 합으로 표현됩니다.
$$ X_1+X_2+ ... + X_n = X $$
A 1 1 ... 1 ↓
B 0 0 ... 0 A에서 추출된 표본의 수
N 모집단의 크기를 N이라 하고 A집단의 크기 M 이라 할 때, $X_i$를 뽑을 확률은 $ \frac{M}{N}$이 됩니다.
비복원 추출이라 하더라도 추출한 이후의 확률이 바뀌는 것이지 앞의 확률을 모를 때에는 모든 확률은 동일하다고 할 수 있습니다.
따라서 기대값은 아래와 같이 표현할 수 있습니다.
$$ E(X_i) = \frac{M}{N} = p $$
$$ E(X) = n \frac{M}{N} = np $$
이항분포에서와 같은 결과가 나옵니다.
(2) 분산
$$ Var(X_i) = E(X_i^2) - E(X_i)^2 $$
$$ E(X_i^2) = p $$
$$ Var(X_i) = p - p^2 = p(1-p) = \frac{M}{N} \frac{N-M}{N} $$
초기하분포가 이항분포와 다른 점은 비복원이므로 각각의 시행이 독립이 아닙니다.
독립이 아니면 공분산이 0 이 아닙니다.
$ Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y) $ 을 적용하면,
$$ Var(X)=Var(X_1+X_2+...+X_n) = \sum_{i} Var(X_i) + 2\sum_{i<j} Cov(X_i,X_j) $$
공분산을 따로 살펴보면,
$ \sum{i<j} $ 의 의미는 공분산의 갯수는 n개에서 서로다른 2개를 조합한 것이라 볼 수 있습니다.
즉, $ \sum{i<j} $ 는 $ \dbinom{n}{2} = \frac{n!}{2!(n-2)!} $ 로 구할 수 있습니다.
공분산은 아래의 공식으로 구할 수 있습니다.
$$ Cov(X_i,X_j) = E(X_i X_j) - E(X_i)E(X_j) $$
$X_i$ 나 $X_j$는 0 또는 1 의 값을 가지고 있습니다. 값이 0이 하나라도 있으면 0이 되기 때문에 $X_i$가 1이고 $X_j$가 1일 때 확률만 구하면 됩니다.
$$ E(X_iX_j) = P(X_i=1, X_j=1) = P(X_i=1)P(X_j=1|X_i =1) $$
$$ P(X_i=1) = \frac{M}{N} $$
$$ P(X_j=1|X_i=1)= \frac{M-1}{N-1} $$
$X_i$을 실행한 후이므로 각각 1 씩 감소하게 됩니다.
위 내용을 정리하면,
$$ E(X_i,X_j) = \frac{M}{N} \frac{M-1}{N-1} , E(X_i)= E(X_j) = \frac{M}{N} $$
이제 공분산을 구하는 식은$$ Cov(X_i,X_j) = E(X_i X_j) - E(X_i)E(X_j) = \frac{M}{N} \frac{M-1}{N-1} - ( \frac{M}{N})^2 $$위 식을 풀어 정리하면,$$ = \frac{M}{N}(\frac{M-1}{N-1} - \frac{M}{N} ) = \frac{M}{N}(\frac{NM-N-MN+M}{N(N-1)}) $$$$ = - \frac{M}{N}(\frac{N-M}{N(N-1)} = \frac{M}{N} ( \frac{1-\frac{M}{N}}{N-1}) $$
위 식에 $\frac{M}{N} = p $ 로 바꾸면,
$$ Cov(X_i,X_j) = - \frac{p(1-p)}{N-1} $$
이제 분산 $Var(X)$ 를 구하는 아래 식에 각각 구한 것을 대입해 보겠습니다.
$$ Var(X)=Var(X_1+X_2+...+X_n) = \sum_{i} Var(X_i) + 2\sum_{i<j} Cov(X_i,X_j) $$
$$ \sum_{i} Var(X_i) = np(1-p) , 2 \sum_{i<j} = 2 \dbinom{n}{2} = 2 \frac{n!}{2!(n-2)!} = n(n-1) $$
$$ Cov(X_i,X_j) = - \frac{p(1-p)}{N-1} $$
$$Var(X) = np(1-p) - n(n-1) \frac{p(1-p)}{N-1} = np(1-p)(1-\frac{N-n}{N-1}) $$
위 분산식에서 $ \frac{N-n}{N-1} $ 을 유한모집단 수정계수라 부릅니다. 이 계수는 1보다 작습니다.
앞서 이항분포의 분산은 $np(1-p)$ 로 나타납니다. 반면 초기하분포의 분산은 $np(1-p)$ 에 $1-수정계수$를 곱한값입니다.
$$Var(X) = np(1-p)(1-\frac{N-n}{N-1}) $$
이는 초기하분포의 분산이 이항분포의 분산보다 작다는 것을 의미합니다.
분산은 퍼져있는 정도를 나타내는 데 분산이 작다는 것은 변동성이 적다는 의미입니다. 그만큼 안정적인 셩채라고 볼 수 있습니다. 따라서 초기하분포가 이항분포보다 좀 더 좋은 성질을 가지고 있다는 의미입니다.
다만 초기하분포는 이항분포에 비해 다루기가 조금 어렵다보니 이항분포로 설명하는 경우가 많을 뿐입니다.
5. 초기하분포 vs 이항분포
초기하분포 | 이항분포 | |
확률변수 | $ X = X_1+X_2+ ... + X_n $ | $ X = X_1+X_2+ ... + X_n $ |
확률질량함수 $f(x)$ | $ \frac{ \dbinom{M}{x} \dbinom{N-M}{n-x} }{ \dbinom{N}{n}}, x=0,1,2,..,n $ | $ \dbinom{n}{x} p^x(1-p)^{n-x} , x = 0,1,2,...,n $ |
확률분포 표시 | $X \backsim HYP(N,K,n)$ | $ X \backsim B(n,p) $ |
기대값 $E(X)$ | $np$ | $np$ |
분산 $Var(X)$ | $np(1-p)(1-\frac{N-n}{N-1}) $ | $np(1-p)$ |
표준편차 $SD(X)$ | $ \sqrt {p(1-p)(1-\frac{N-n}{N-1})} $ | $ \sqrt {np(1-p)}$ |
확률분포의 분류
'통계학 이야기' 카테고리의 다른 글
46. 포아송분포(Poisson Distribution) - 이산확률분포 (1) | 2023.10.27 |
---|---|
45. R을 이용한 확률분포 - 초기하분포 구하기 (1) | 2023.10.26 |
43. R을 이용한 확률분포 - 이항분포 구하기 (0) | 2023.10.25 |
42. 베르누이분포 & 이항분포 (이산확률분포) (0) | 2023.10.24 |
41. 확률분포의 분류 (1) | 2023.10.23 |