일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 데이터 과학
- 변량효과모형
- version 1
- 분산분석
- 이원배치 분산분석
- 경제학
- 정규분포
- 티스토리챌린지
- 글쓰기
- 두 평균의 비교
- 가설검정
- 반복있음
- 고정효과모형
- r
- 반복없음
- html
- 추정
- 인공지능
- 통계학
- version 2
- css
- 회귀분석
- 이항분포
- 산점도
- 에세이
- JavaScript
- 변동분해
- 확률
- 혼합효과모형
- 오블완
- Today
- Total
생각 작업실 The atelier of thinking
7. 자료 수집 : 표본 추출 방법 본문
Chapter 7. 자료 수집 - 표본 추출 방법
모집단에서 표본을 추출하는 방법을 아래와 같이 나눴지만 결국 궁극적인 목표는 대표성을 가질 수 있게 표본을 추출하는 방법을 찾는 것입니다.
1. 확률(임의) 표본 추출(Probability sampling)
모집단을 구성하는 모든 추출단위에 대해 표본으로 추출된 확률을 알 수 있는 추출법입니다.
표본추출틀 (sampling frame, 표집틀) 필요하며, 특정한 표본이 선정될 확률을 토대로 추정오차를 확률개념을 이용하여 과학적으로 설명합니다.
세부 종류로는 단순확률추출, 계통추출,집락추출,층화추출 등이 있습니다.
(1) 단순확률(임의)추출 ( SRS, Simple Random Sampling)
크기라 N인 모집단에서 크기 n 인 표본을 무작위로 추출하는 방법입니다.
이 추출방법은 모든 단위들이 표본에 선택될 확률이 동일하다는 전제입니다.
예) 가구 조사 $ P(추출확률) = \frac {n}{N} $
실제 대규모 조사에서는 거의 사용되지 않지만 다른 모든 표본추출방법의 기초 (표본추출 기초이론)라 할 수 있습니다.
(2) 계통표본추출 (Systematic Sampling)
표집틀에서 처음 1 ~ k 번째 단위들 중 하나를 랜덤하게 선택한 다음, 매 k번째에 해당되는 단위들을 표본으로 추출하는 방법입니다.
◈ 계통표본추출과정
① 추출간격 k의 결정 : N/n 또는 정확도를 고려 결정
② 1 ~ k 에서 난수 하나를 선택해서 시작점을 선정
③ 시작점에 k를 반복적으로 더해서 표본추출
[ 예시 ] 모집단 크기 = 500, 표본크기 = 50
→ 3,13,23, ... , 493 을 표본으로 선택
표집틀이 없어 고유번호 부여하거나 혹은 난수발생 등으로 단순확률추출법을 적용하기 어려운 실제 조사현장에서 폭 넓게 활용됩니다.
예를들어, 선거출구조사, 주차장 출입 차량에 대한 조사 등이 이 방법을 활용합니다.
(3) 층화확률추출 (Stratified Random Sampling)
모집단을 서로 중복되지 않는 여러 개의 층(strata)으로 나누고, 각 층에서 단순확률추출에 의해 표본을 추출하는 방법입니다.
일반적으로 부모집단(Subpopulation)의 구성 내역을 알고 있고, 부모집단 간 특성에 차이가 있을 때 사용됩니다.
전체 모집단 크기 N, i 번째 층의 크기 Ni , $Wi = \frac {Ni}{N} $
비슷한 관측치로 이루어진 층(strata)를 만들고 각 층에서 임의로 표본을 추출하는 방법입니다. 이때, 층 안은 동질적이고 층 사이는 이질적으로 만들어야 합니다.
◈ 층화표본추출과정
① 층의 구성 (성별, 연령, 지역 등)
② 각 층에서 독립적으로 표본 추출, 여기서는 단순확률추출을 사용
예 : 서울시내 서점의 월 매출액 추정을 위하여 500개 서점을 표본추출한다고 할 때,
500개 중 대형서점이 10개인 경우와 20개인 경우 추정치 변동이 클 것이므로,
대형, 중형,소형으로 분류를 한 후에 각 층에서 일정 수 표본추출합니다.
층의 비율에 맞게 추출합니다. 이 때, 층의 비율에 맞지 않으면 가중치 반영합니다..
앞선 예시에서 1936년 미 대선 결과 예측을 할 때, 만약 'Literary Digest'가 층화 확률 추출로 상위층, 중위층, 하위층을 나누어서 각각 설문조사를 하였다면 결과는 달라졌을 것입니다.
(4) 집락표본추출(Cluster sampling)
서로 인접한 조사단위들을 묶어 구성한 집락(cluster)를 추출하고, 이들 집락 내의 조사단위들을 조사하는 방법입니다.
예를 들어 서울시 고등학생 월평균 사교육비를 추정한다고 했을 때,
▶ Case1. 단순추출법(SRS)적용시
추출틀 : 서울시 전체 고등학생 명단 작성비용 과다
조사대상 : 서울 전역에 산재됨 조사비용 과다
▶ Case 2 . 집락추출 적용시
1 단계 : 고등학교 추출 (PSU, primary sampling unit)
2 단계 : 학생추출 (학급 → 학생)
집락추출법이 사용되는 경우는,
① 조사단위에 대한 표집틀 확보가 어려울 때
② 상대적으로 집락에 대한 표집틀 확보는 쉬울 때
③ 조사단위들이 산재되어 관측비용이 많이 들 때
④ 지역적으로 집중되도록 표본추출할 때
등 입니다.
모집단을 몇 개의 집락(cluster)으로 나눈 후 집락 가운데 몇 개의 집락을 단순임의추출로 추출한 후 추출된 집락 안의 자료를 모두 표본을 간주하는 방법입니다. 집락 간의 비슷하지만 개개의 집락은 모집단 전체의 특징을 반영할 수 있어야 합니다.
(5) 다단계 추출 (Multistage Sampling)
집락추출과 동일하게 각 집락을 추출하고 집락안의 자료를 대상으로 단순임의추출을 하여 최종표본을 선정합니다.
미 갤럽에서 여론조사를 위해 각 지역번호(cluster)를 임의로 선정하고, 그 지역 번호를 가진 사람을 다시 임의로 선출합니다.
2. 비확률표본추출(Non-probability sampling)
모집단의 대상자가 표본으로 선택될 수 있는 기회가 균등하게 이루어지지 못하여, 특정 표본이 선정될 확률을 알 수 없을 때 사용합니다.
추론결과의 정확도(precision)가 낮은 편이지만, 간편하고 비용이 적게 든다는 이유로 사회조사에서 광법위하게 사용됩니다.
종류로는 편의(convenience)추출, 유의(purposive)추출, 할당(quota)추출 등이 있습니다.
(1) 편의추출(Convenience Sampling)
편의추출은 가장 접근하기 쉬운 사람이나 사물을 연구대상으로 선택하여 활용하는 것입니다.
예를 들어 자발적 참여, 백화점 앞, 포털사이트 인터넷 조사 등이 이 방법에 속합니다.
(2) 할당추출 (Quota Sampling)
그룹 내 조사대상 선택에서 랜덤화 과정이 없습니다.
모집단의 계층을 확인하여 그와 비례적으로 표본을 추출함으로써 계층을 대표하도록 하는 방식입니다.
계층 선정시 모집단에 대한 연구자의 지식과 문헌고찰이 필수적입니다.
예를 들어 연령별, 성별, 종교별, 인종별, 학력수준별, 직위별 등으로 나누어 표본을 추출하는 방법입니다.
(3) 유의추출 (Purposive Sampling)
연구자가 모집단을 대표한다고 생각되는 대상자들을 선택하는 방식 (전문가 선택)입니다.
3. 그 외 표본조사방법
(1) 포획-재포획 추출 (Capture-Recapture Sampling)
특정 장소에 살고 있는 동물들의 개체 수를 추정하기 위해 사용하는 방법입니다.
n개의 동물들을 포획한 후 각 동물마다 표지를 부착합니다.
동물들을 다시 원 서식지로 방목한 후 다시 K개의 동물을 포획하고, 그 중 표지가 있는 동물 개수를 k라고 하면,
이 경우 전체 모집단의 개수는 아래의 식으로 구할 수 있습니다.
$$ N = \frac {K n}{k} $$
(2) 트란섹트 추출(Transect Sampling)
캥커루, 고래 등과 같은 야생동물의 숫자를 추정하기 위해 사용하는 방법입니다.
주어진 공간에 등간격으로 직선을 그은 후, 그 직선을 따라 이동하면서 관측된 동물 숫자를 직선과 동물의 위치와의 수직 거리별로 정리를 한 후 그 자료를 이용하여 전체 동물 개수를 추정합니다.
'통계학 이야기' 카테고리의 다른 글
9. 자료의 분류와 특성 (0) | 2023.08.25 |
---|---|
8. 자료 수집 - 표본 편의(Sampling Bias) (0) | 2023.08.25 |
6. 자료 수집 - 표본 추출 (Sampling) (0) | 2023.08.22 |
5. 자료 수집 - 통계적 실험과 관측 연구 (0) | 2023.08.22 |
4. 통계분석과 자료 (Data) (0) | 2023.08.22 |